論文の概要: TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning
- arxiv url: http://arxiv.org/abs/2410.19702v2
- Date: Wed, 12 Feb 2025 16:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:32.779227
- Title: TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning
- Title(参考訳): TimeSuite: グラウンデッドチューニングによる長時間ビデオ理解のためのMLLMの改善
- Authors: Xiangyu Zeng, Kunchang Li, Chenting Wang, Xinhao Li, Tianxiang Jiang, Ziang Yan, Songze Li, Yansong Shi, Zhengrong Yue, Yi Wang, Yali Wang, Yu Qiao, Limin Wang,
- Abstract要約: 本稿では,従来のショートフォームビデオMLLMを長大なビデオ理解に適用するための新デザインであるTimeSuiteを提案する。
TimeSuiteは、ショートフォームMLLMの長いビデオ理解能力を向上するための、成功したソリューションを提供する。
さらに,9つのタスクと349kの高品質な接地アノテーションからなる総合的な接地中心の命令データセットであるTimeProを紹介する。
- 参考スコア(独自算出の注目度): 42.928144657587325
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated impressive performance in short video understanding. However, understanding long-form videos still remains challenging for MLLMs. This paper proposes TimeSuite, a collection of new designs to adapt the existing short-form video MLLMs for long video understanding, including a simple yet efficient framework to process long video sequence, a high-quality video dataset for grounded tuning of MLLMs, and a carefully-designed instruction tuning task to explicitly incorporate the grounding supervision in the traditional QA format. Specifically, based on VideoChat, we propose our long-video MLLM, coined as VideoChat-T, by implementing a token shuffling to compress long video tokens and introducing Temporal Adaptive Position Encoding (TAPE) to enhance the temporal awareness of visual representation. Meanwhile, we introduce the TimePro, a comprehensive grounding-centric instruction tuning dataset composed of 9 tasks and 349k high-quality grounded annotations. Notably, we design a new instruction tuning task type, called Temporal Grounded Caption, to peform detailed video descriptions with the corresponding time stamps prediction. This explicit temporal location prediction will guide MLLM to correctly attend on the visual content when generating description, and thus reduce the hallucination risk caused by the LLMs. Experimental results demonstrate that our TimeSuite provides a successful solution to enhance the long video understanding capability of short-form MLLM, achieving improvement of 5.6% and 6.8% on the benchmarks of Egoschema and VideoMME, respectively. In addition, VideoChat-T exhibits robust zero-shot temporal grounding capabilities, significantly outperforming the existing state-of-the-art MLLMs. After fine-tuning, it performs on par with the traditional supervised expert models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、短いビデオ理解において優れた性能を示す。
しかし、長編ビデオの理解は依然としてMLLMにとって難しい課題である。
提案するTimeSuiteは,従来の短フォーマットビデオMLLMを長時間ビデオ理解に適応するための新しい設計の集合であり,長ビデオシーケンスを処理するためのシンプルで効率的なフレームワーク,MLLMのグラウンドトチューニングのための高品質なビデオデータセット,従来のQAフォーマットにグラウンドトインスペクタを明示的に組み込むための慎重に設計されたチューニングタスクである。
具体的には,ビデオチャットをベースとして,長いビデオトークンを圧縮するためのトークンシャッフルを実装し,時間的適応位置符号化(TAPE)を導入し,視覚表現の時間的認識を高めることで,ビデオチャット-Tと呼ばれる長ビデオMLLMを提案する。
一方,9つのタスクと349kの高品質な接地アノテーションからなる総合的な接地中心の命令チューニングデータセットであるTimeProを紹介する。
特に,テンポラルグラウンドド・キャプション(Temporal Grounded Caption)と呼ばれる新しい命令チューニングタスクを設計し,対応するタイムスタンプ予測を用いて詳細な映像記述を行う。
この明示的な時間的位置予測は、MLLMが記述を生成する際に視覚的内容に正しく参加するように誘導し、LLMによる幻覚リスクを低減させる。
実験結果から,我々のTimeSuiteは,ショートフォームMLLMの長大なビデオ理解能力の向上に成功し,EgoschemaとVideoMMEのベンチマークでそれぞれ5.6%,6.8%の改善を実現していることがわかった。
さらに、VideoChat-Tはゼロショット時間グラウンド機能を備えており、既存の最先端MLLMよりも大幅に優れています。
微調整の後、従来の教師付きエキスパートモデルと同等に機能する。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - Enhancing Temporal Modeling of Video LLMs via Time Gating [38.86742466948778]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。
既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。
時間ゲーティングビデオLLM(TG-Vid)を提案する。
論文 参考訳(メタデータ) (2024-10-08T06:21:29Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。