論文の概要: How Important are Videos for Training Video LLMs?
- arxiv url: http://arxiv.org/abs/2506.06928v1
- Date: Sat, 07 Jun 2025 21:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.567768
- Title: How Important are Videos for Training Video LLMs?
- Title(参考訳): ビデオLLMのトレーニングにビデオはどの程度重要か?
- Authors: George Lydakis, Alexander Hermans, Ali Athar, Daan de Geus, Bastian Leibe,
- Abstract要約: 画像のみのトレーニングでは,ビデオLLMの方が時間的推論能力が高いことが示唆された。
本稿では,注釈付き画像のシーケンスと時間的機能に着目した質問を含む簡易な微調整手法を提案する。
これは、現在のモデルによるリアルタイムビデオに見られる豊富な時間的特徴の最適部分利用を示唆している。
- 参考スコア(独自算出の注目度): 55.965474658745315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research into Video Large Language Models (LLMs) has progressed rapidly, with numerous models and benchmarks emerging in just a few years. Typically, these models are initialized with a pretrained text-only LLM and finetuned on both image- and video-caption datasets. In this paper, we present findings indicating that Video LLMs are more capable of temporal reasoning after image-only training than one would assume, and that improvements from video-specific training are surprisingly small. Specifically, we show that image-trained versions of two LLMs trained with the recent LongVU algorithm perform significantly above chance level on TVBench, a temporal reasoning benchmark. Additionally, we introduce a simple finetuning scheme involving sequences of annotated images and questions targeting temporal capabilities. This baseline results in temporal reasoning performance close to, and occasionally higher than, what is achieved by video-trained LLMs. This suggests suboptimal utilization of rich temporal features found in real video by current models. Our analysis motivates further research into the mechanisms that allow image-trained LLMs to perform temporal reasoning, as well as into the bottlenecks that render current video training schemes inefficient.
- Abstract(参考訳): ビデオ大言語モデル(LLMs)の研究は急速に進展し、わずか数年で多数のモデルとベンチマークが出現した。
通常、これらのモデルは事前訓練されたテキストのみのLLMで初期化され、画像とビデオのキャプチャデータセットの両方で微調整される。
本稿では,映像専用トレーニングの時間的推論能力が,映像専用トレーニングの時間的推論能力に優れていることを示すとともに,映像専用トレーニングの改善が驚くほど小さいことを示す。
具体的には、最近のLongVUアルゴリズムで訓練された2つのLLMのイメージトレーニング版が、時間的推論ベンチマークであるTVBenchにおいて、かなり高い確率で実行可能であることを示す。
さらに,アノテートされた画像のシーケンスと時間的機能を対象とした質問を含む簡易な微調整手法を提案する。
このベースラインは時間的推論性能をビデオ学習LLMに近く、時にはそれよりも高くする。
これは、現在のモデルによるリアルタイムビデオに見られる豊富な時間的特徴の最適部分利用を示唆している。
我々の分析は、画像学習されたLLMが時間的推論を実行できるようにするメカニズムと、現在のビデオトレーニングスキームを非効率にレンダリングするボトルネックについて、さらなる研究を動機付けている。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding [55.32878803528196]
ビデオの時間的理解は、マルチモーダルな大言語モデル(MLLM)において、ビデオ内のイベントを推論するために不可欠である。
タイムスタンプを意識したマルチセグメントグラウンドの導入により時間的理解を高める新しいRLに基づくMUSEGを提案する。
効果的な学習を容易にするため,段階的な報酬付きRL学習レシピを設計し,時間的根拠に基づく推論に向けてモデルを段階的に導く。
論文 参考訳(メタデータ) (2025-05-27T04:50:07Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - From Image to Video, what do we need in multimodal LLMs? [17.847011311716077]
本稿では、ロバストなビデオLLMを構築するリソース効率開発パイプラインRED-VILLMを紹介する。
我々は、時間情報を把握する能力を備えたバックボーン画像LLMを具現化して、時間適応型プラグアンドプレイ構造を考案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - LLM4VG: Large Language Models Evaluation for Video Grounding [39.40610479454726]
本稿では,ビデオグラウンド処理における異なるLLMの性能を体系的に評価する。
本稿では,VGの命令と異なる種類のジェネレータからの記述を統合するためのプロンプト手法を提案する。
実験結果から,既存のVidLLMはビデオグラウンディング性能の達成にはまだ程遠いが,これらのモデルをさらに微調整するためには,より時間的なビデオタスクを含めるべきである,という結論が得られた。
論文 参考訳(メタデータ) (2023-12-21T08:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。