論文の概要: Universal Video Temporal Grounding with Generative Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.18883v1
- Date: Mon, 23 Jun 2025 17:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.113252
- Title: Universal Video Temporal Grounding with Generative Multi-modal Large Language Models
- Title(参考訳): 生成型多モーダル大言語モデルを用いたユニバーサルビデオ時間グラウンド
- Authors: Zeqian Li, Shangzhe Di, Zhonghua Zhai, Weilin Huang, Yanfeng Wang, Weidi Xie,
- Abstract要約: 本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
- 参考スコア(独自算出の注目度): 59.781211641591405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a computational model for universal video temporal grounding, which accurately localizes temporal moments in videos based on natural language queries (e.g., questions or descriptions). Unlike existing methods that are often limited to specific video domains or durations, we propose UniTime, a robust and universal video grounding model leveraging the strong vision-language understanding capabilities of generative Multi-modal Large Language Models (MLLMs). Our model effectively handles videos of diverse views, genres, and lengths while comprehending complex language queries. The key contributions include: (i) We consider steering strong MLLMs for temporal grounding in videos. To enable precise timestamp outputs, we incorporate temporal information by interleaving timestamp tokens with video tokens. (ii) By training the model to handle videos with different input granularities through adaptive frame scaling, our approach achieves robust temporal grounding for both short and long videos. (iii) Comprehensive experiments show that UniTime outperforms state-of-the-art approaches in both zero-shot and dataset-specific finetuned settings across five public temporal grounding benchmarks. (iv) When employed as a preliminary moment retriever for long-form video question-answering (VideoQA), UniTime significantly improves VideoQA accuracy, highlighting its value for complex video understanding tasks.
- Abstract(参考訳): 本稿では,自然言語クエリ(質問文,説明文など)に基づいて,映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
特定のビデオ領域や期間に制限されることの多い既存の手法とは異なり、生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解能力を活用する、堅牢で普遍的なビデオ基盤モデルであるUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
主な貢献は以下のとおりである。
(i)ビデオにおける時間的接地のための強力なMLLMの操り方を検討する。
タイムスタンプの正確な出力を可能にするため、タイムスタンプトークンとビデオトークンを相互接続することで、時間情報を組み込む。
(II)適応的なフレームスケーリングによって異なる入力粒度で動画を扱うためのモデルを訓練することにより、短いビデオと長いビデオの両方に対して堅牢な時間的グラウンド化を実現する。
三 総合実験により、UniTimeは5つの公開時間グラウンドベンチマークにおいて、ゼロショットとデータセット固有の微調整設定の両方において最先端のアプローチより優れていることが示された。
(4)ビデオQAの予備的モーメントレトリバーとして使用される場合,UniTimeはビデオQAの精度を大幅に改善し,複雑なビデオ理解タスクの価値を強調した。
関連論文リスト
- Vidi: Large Multimodal Models for Video Understanding and Editing [33.56852569192024]
本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。
最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。
VUE-TRベンチマークも提案する。
論文 参考訳(メタデータ) (2025-04-22T08:04:45Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - Chrono: A Simple Blueprint for Representing Time in MLLMs [34.036784478999245]
ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。