論文の概要: EVE: Towards End-to-End Video Subtitle Extraction with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.04058v1
- Date: Thu, 06 Mar 2025 03:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:43.957134
- Title: EVE: Towards End-to-End Video Subtitle Extraction with Vision-Language Models
- Title(参考訳): EVE:視覚言語モデルを用いたエンドツーエンドビデオ字幕抽出を目指して
- Authors: Haiyang Yu, Jinghui Lu, Yanjie Wang, Yang Li, Han Wang, Can Huang, Bin Li,
- Abstract要約: 本稿では,視覚エンコーダ,アダプタモジュール,大規模言語モデルという3つのモジュールからなる,EVEと呼ばれるエンドツーエンドビデオ字幕抽出手法を提案する。
視覚エンコーダから視覚トークンを効果的に圧縮するために,2つのモダリティをインターリーブする新しいアダプタInterleavedVTを提案する。
ビデオ字幕抽出タスクをベンチマークするために,2.5Mビデオを含む大規模なデータセットViSaを提案する。
- 参考スコア(独自算出の注目度): 27.726733116479668
- License:
- Abstract: The advent of Large Vision-Language Models (LVLMs) has advanced the video-based tasks, such as video captioning and video understanding. Some previous research indicates that taking texts in videos as input can further improve the performance of video understanding. As a type of indispensable information in short videos or movies, subtitles can assist LVLMs to better understand videos. Most existing methods for video subtitle extraction are based on a multi-stage framework, handling each frame independently. They can hardly exploit the temporal information of videos. Although some LVLMs exhibit the robust OCR capability, predicting accurate timestamps for subtitle texts is still challenging. In this paper, we propose an End-to-end Video Subtitle Extraction method, called EVE, which consists of three modules: a vision encoder, an adapter module, and a large language model. To effectively compress the visual tokens from the vision encoder, we propose a novel adapter InterleavedVT to interleave two modalities. It contains a visual compressor and a textual region compressor. The proposed InterleavedVT exploits both the merits of average pooling and Q-Former in token compression. Taking the temporal information of videos into account, we introduce a sliding-window mechanism in the textual region compressor. To benchmark the video subtitle extraction task, we propose a large dataset ViSa including 2.5M videos. Extensive experiments on ViSa demonstrate that the proposed EVE can outperform existing open-sourced tools and LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の出現により、ビデオキャプションやビデオ理解といったビデオベースのタスクが進んだ。
過去の研究では、ビデオ中のテキストを入力として取り込むことで、ビデオ理解の性能がさらに向上することが示唆されている。
短いビデオや映画に欠かせない情報として、サブタイトルはLVLMがビデオを理解するのに役立つ。
既存のビデオ字幕抽出手法の多くは多段階フレームワークに基づいており、各フレームを独立して扱う。
彼らはビデオの時間的情報をほとんど利用できない。
一部のLVLMは、堅牢なOCR能力を示すが、字幕テキストの正確なタイムスタンプを予測することは依然として困難である。
本稿では,視覚エンコーダ,アダプタモジュール,大規模言語モデルという3つのモジュールからなる,EVEと呼ばれるエンドツーエンドビデオ字幕抽出手法を提案する。
視覚エンコーダから視覚トークンを効果的に圧縮するために,2つのモダリティをインターリーブする新しいアダプタInterleavedVTを提案する。
ビジュアル圧縮機とテキスト領域圧縮機を含む。
提案したInterleavedVTはトークン圧縮における平均プールとQ-Formerの両方の利点を利用する。
ビデオの時間的情報を考慮に入れ,テキスト領域圧縮機にスライドウインドウ機構を導入する。
ビデオ字幕抽出タスクをベンチマークするために,2.5Mビデオを含む大規模なデータセットViSaを提案する。
ViSaの大規模な実験は、提案されたEVEが既存のオープンソースツールやLVLMより優れていることを実証している。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video-Helpful Multimodal Machine Translation [36.9686296461948]
マルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは命令的なビデオ字幕から構成される。
EVA(Extensive training set and video-helpful evaluation set for Ambiguous subtitles translation)を導入し,852kの日本語(Ja-En)パラレル字幕対,520kの中国語(Zh-En)パラレル字幕対を含むMTデータセットを提案する。
Selective Attentionモデルに基づくMSTモデルであるSAFAを提案する。
論文 参考訳(メタデータ) (2023-10-31T05:51:56Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。