論文の概要: ViLL-E: Video LLM Embeddings for Retrieval
- arxiv url: http://arxiv.org/abs/2604.12148v1
- Date: Mon, 13 Apr 2026 23:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.165995
- Title: ViLL-E: Video LLM Embeddings for Retrieval
- Title(参考訳): ViLL-E:リトリーバル用ビデオLLM埋め込み
- Authors: Rohit Gupta, Jayakrishnan Unnikrishnan, Fan Fei, Sheng Liu, Son Tran, Mubarak Shah,
- Abstract要約: ViLL-E (Video-LLM-Embed) は、新しい埋め込み生成機構を備えた統合ビデオLLMアーキテクチャである。
我々は、生成学習とコントラスト学習を組み合わせた3段階の学習手法を用いて、このモデルを訓練する。
我々のモデルは、時間的ローカライゼーション(他のビデオLLMよりも7%)とビデオ検索(デュアルエンコーダモデルより最大4%)を大幅に改善する。
- 参考スコア(独自算出の注目度): 55.66444095205989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (VideoLLMs) excel at video understanding tasks where outputs are textual, such as Video Question Answering and Video Captioning. However, they underperform specialized embedding-based models in Retrieval tasks, such as Text-toVideo Retrieval and Moment Retrieval. We introduce ViLL-E (Video-LLM-Embed), a unified VideoLLM architecture endowed with a novel embedding generation mechanism that allows the model to "think longer" for complex videos and stop early for easy ones. We train this model with a three-stage training methodology combining generative and contrastive learning: initial large-scale pre-training with video-caption pairs; followed by continual training on a smaller, detailed-caption dataset; and concluding with task-specific fine-tuning on a novel multi-task dataset covering Video QA, Temporal Localization, Video Retrieval, and Video-Text Matching. Our model significantly improves temporal localization (on avg. 7% over other VideoLLMs) and video retrieval (up to 4% over dual encoder models), achieving performance comparable to state-of-the-art specialized embedding models while remaining competitive on VideoQA tasks. Furthermore, our joint contrastive-generative training unlocks new zero-shot capabilities, significantly outperforming state-of-the-art methods in composed video retrieval (+5% over SotA) and retrieval from long text (+2% over SotA).
- Abstract(参考訳): Video Large Language Models (VideoLLMs) は、ビデオ質問回答やビデオキャプションなど、出力がテキストであるビデオ理解タスクを抽出する。
しかし、それらは、Text-toVideo RetrievalやMoment Retrievalのような、検索タスクで特別な埋め込みベースのモデルを実行する。
ViLL-E (Video-LLM-Embed) は,複雑なビデオに対してモデルが"より長い"ことを考慮し,簡単なビデオに対して早期に停止する,新しい埋め込み生成機構を備えた統合ビデオLLMアーキテクチャである。
このモデルは、生成学習とコントラスト学習を組み合わせた3段階のトレーニング手法を用いて訓練する。まず、ビデオキャプションペアによる大規模事前学習、続いて、より小型で詳細なカプセル化データセットの継続トレーニング、ビデオQA、時間的局所化、ビデオ検索、ビデオテキストマッチングを含む新しいマルチタスクデータセットのタスク固有の微調整を行う。
我々のモデルは、時間的ローカライゼーション(他のビデオLLMよりも7%)とビデオ検索(デュアルエンコーダモデルより最大4%)を大幅に改善し、ビデオQAタスクにおける競争力を維持しながら、最先端の特殊な埋め込みモデルに匹敵する性能を達成する。
さらに,コントラクティブ・ジェネレーション・トレーニングにより,新たなゼロショット機能を実現し,合成ビデオ検索(SotA+5%)と長文検索(SotA+2%)において,最先端の手法を著しく上回った。
関連論文リスト
- VideoWeave: A Data-Centric Approach for Efficient Video Understanding [54.5804686337209]
我々は、合成長文学習サンプルを構築して、データ効率を改善するためのシンプルで効果的な方法であるVideoWeaveを提案する。
VideoWeaveは、利用可能なビデオテキストペアを再編成して、固定計算内で時間的多様性を拡大する。
我々の結果は、アーキテクチャを変更するのではなく、トレーニングデータを再編成することで、ビデオ言語モデルをトレーニングするためのシンプルでスケーラブルなパスを提供できることを強調している。
論文 参考訳(メタデータ) (2026-01-09T20:55:26Z) - Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。
このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。
時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T17:59:04Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。