論文の概要: Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs
- arxiv url: http://arxiv.org/abs/2510.03955v1
- Date: Sat, 04 Oct 2025 21:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.358379
- Title: Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs
- Title(参考訳): ビデオLLMの時間的理解を促進するためのハラスティング合成選好データ
- Authors: Sameep Vani, Shreyas Jena, Maitreya Patel, Chitta Baral, Somak Aditya, Yezhou Yang,
- Abstract要約: 我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
- 参考スコア(独自算出の注目度): 54.502280390499756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Video Large Language Models (Video-LLMs) have demonstrated remarkable performance across general video understanding benchmarks-particularly in video captioning and descriptive tasks-they consistently underperform on tasks that require fine-grained temporal understanding. This limitation arises due to the lack of visual complexity and temporal nuance in current fine-tuning datasets, leading these models to rely heavily on language-based reasoning rather than truly understanding video dynamics. In this work, we propose TimeWarp, a systematic method to create a targeted synthetic temporal dataset to fine-tune the model's responses to encourage it to focus on the given input video. We introduce a large-scale preference dataset, created using TimeWarp, that captures intricate temporal dynamics often overlooked, grounding the model's responses to visual and temporal information. We demonstrate that when our method is applied to existing models, it significantly improves performance on temporal understanding benchmarks, highlighting the effectiveness of our proposed datasets in advancing temporal understanding in Video-LLMs, resulting in an absolute improvement in performance across seven benchmarks. Code is available at https://github.com/sameepv21/timewarp.
- Abstract(参考訳): Video Large Language Models (Video-LLMs) は、ビデオキャプションや記述タスクにおいて、一般的なビデオ理解ベンチマークで顕著なパフォーマンスを示してきたが、細かな時間的理解を必要とするタスクでは、常にパフォーマンスが劣っている。
この制限は、現在の微調整データセットにおける視覚的複雑さと時間的ニュアンスが欠如していることから生じ、これらのモデルはビデオ力学を真に理解するのではなく、言語に基づく推論に大きく依存する。
本研究では,モデル応答を微調整し,与えられた入力ビデオに焦点を合わせるための,対象とする合成時間データセットを作成するための体系的方法であるTimeWarpを提案する。
我々はTimeWarpを使って作成した大規模な選好データセットを導入し、視覚的および時間的情報に対するモデルの応答を根拠として、しばしば見過ごされる複雑な時間的ダイナミクスをキャプチャする。
提案手法を既存のモデルに適用すると,時間的理解ベンチマークの性能が大幅に向上し,ビデオ-LLMの時間的理解を前進させる上で,提案するデータセットの有効性が強調され,その結果,7つのベンチマークにおける性能が絶対的に向上することが実証された。
コードはhttps://github.com/sameepv21/timewarp.comから入手できる。
関連論文リスト
- DATE: Dynamic Absolute Time Enhancement for Long Video Understanding [8.720269393713451]
長期ビデオ理解はマルチモーダル大言語モデル(MLLM)の根本的な課題であり続けている
MLLMにおける時間的意識を高める動的絶対時間拡張(DATE)を提案する。
本稿では,意味的関連性と時間的関連性の両方を保証するための2段階アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-11T08:49:22Z) - Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data [100.5266292850922]
Streferはビデオ大モデルに参照と推論機能を持たせるために設計された合成データ生成フレームワークである。
Streferは、時間的に密度が高くきめ細かなビデオメタデータを擬似アノテーションするデータエンジンを使用して、多様な命令生成データを生成する。
我々のアプローチは、ビデオLLMが空間的および時間的参照を解釈する能力を高め、現実のAIコンパニオンに不可欠な、より汎用的で時空間対応の推論を育む。
論文 参考訳(メタデータ) (2025-09-03T17:33:20Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - DisTime: Distribution-based Time Representation for Video Large Language Models [23.176698643825123]
DisTimeは、ビデオLLMにおける時間的理解を強化するために設計された軽量フレームワークである。
DisTimeは、連続的な時間的埋め込みスペースを作成するために学習可能なトークンを使用する。
DisTimeは3つの時間に敏感なタスクでベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-30T08:10:18Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Temporal Preference Optimization for Long-Form Video Understanding [63.196246578583136]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。