論文の概要: Temporal Reasoning Transfer from Text to Video
- arxiv url: http://arxiv.org/abs/2410.06166v1
- Date: Tue, 8 Oct 2024 16:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:50:51.542526
- Title: Temporal Reasoning Transfer from Text to Video
- Title(参考訳): テキストからビデオへの時間的推論
- Authors: Lei Li, Yuanxin Liu, Linli Yao, Peiyuan Zhang, Chenxin An, Lean Wang, Xu Sun, Lingpeng Kong, Qi Liu,
- Abstract要約: ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
- 参考スコア(独自算出の注目度): 51.68487044397409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Language Models (Video LLMs) have shown promising capabilities in video comprehension, yet they struggle with tracking temporal changes and reasoning about temporal relationships. While previous research attributed this limitation to the ineffective temporal encoding of visual inputs, our diagnostic study reveals that video representations contain sufficient information for even small probing classifiers to achieve perfect accuracy. Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning capability stems from the underlying LLM's inherent difficulty with temporal concepts, as evidenced by poor performance on textual temporal question-answering tasks. Building on this discovery, we introduce the Textual Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning tasks in pure text format from existing image-text datasets, addressing the scarcity of video samples with complex temporal scenarios. Remarkably, without using any video data, T3 enhances LongVA-7B's temporal understanding, yielding a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark, which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video samples. Additionally, the enhanced LongVA-7B model achieves competitive performance on comprehensive video benchmarks. For example, it achieves a 49.7 accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further analysis reveals a strong correlation between textual and video temporal task performance, validating the efficacy of transferring temporal reasoning abilities from text to video domains.
- Abstract(参考訳): ビデオ大言語モデル(ビデオLLM)はビデオ理解において有望な能力を示しているが、時間的変化の追跡と時間的関係の推論に苦慮している。
従来の研究では、この制限は視覚入力の時間的非効率な符号化に起因していたが、診断研究により、ビデオ表現は、たとえ小さなプロブリング分類器であっても、完全な精度を達成するのに十分な情報を含んでいることが明らかとなった。
意外なことに、ビデオLLMの時間的推論能力の鍵となるボトルネックは、テキスト時間的質問応答タスクにおける粗悪なパフォーマンスによって証明されるように、その根底にあるLLMの時間的概念に対する難しさに起因している。
この発見に基づいて、テクスチュアル・テンポラル・推論・トランスファー(T3)を導入する。
T3は、既存の画像テキストデータセットから純粋なテキスト形式で多様な時間的推論タスクを合成し、複雑な時間的シナリオでビデオサンプルの不足に対処する。
注目すべきは、ビデオデータを一切使わずに、T3はLongVA-7Bの時間的理解を強化し、挑戦的なTempCompassベンチマークにおいて5.3の絶対精度の向上を実現し、28,000のビデオサンプルでトレーニングされたShareGPT4Video-8Bよりも優れたパフォーマンスを実現したことだ。
さらに、拡張されたLongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
例えば、ビデオMMEのテンポラル推論タスクにおいて49.7の精度を実現し、InternVL-Chat-V1.5-20BやVILA1.5-40Bのような強力な大規模モデルを上回る。
さらに,テキストから映像領域への時間的推論能力の移譲の有効性を検証し,テキストと映像の時間的タスク性能の相関性を示す。
関連論文リスト
- On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos [24.502570960589182]
ReXTimeは、ビデオイベント内で時間的推論を実行するAIモデルの能力を厳格にテストするために設計されたベンチマークである。
時間的推論と問合せのペアを生成する自動パイプラインを開発する。
私たちのパイプラインは、手作業なしで9,695個のマシン生成サンプルのトレーニングデータセットを作成しています。
論文 参考訳(メタデータ) (2024-06-27T17:59:45Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T22:50:48Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。