論文の概要: What Happens When: Learning Temporal Orders of Events in Videos
- arxiv url: http://arxiv.org/abs/2512.08979v1
- Date: Fri, 05 Dec 2025 07:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.240755
- Title: What Happens When: Learning Temporal Orders of Events in Videos
- Title(参考訳): ビデオでイベントの時間順を学習する
- Authors: Daechul Ahn, Yura Choi, Hyeonbeom Choi, Seongwon Cho, San Kim, Jonghyun Choi,
- Abstract要約: Video Large Multimodal Models (VLMM) はビデオ理解において顕著な性能を示しているが、複数のイベントの時間順序を正確に把握する能力はいまだ探索されていない。
本稿では,イベントの時間的順序を識別するモデルの能力を明確に評価するために,VECTORを提案する。
本稿では,詳細なイベント・バイ・イベントの映像記述をモデルとしてトレーニングし,時間的意識を高めるために,推論時にチェーン・オブ・ソート・プロンプトを利用するMECOTを提案する。
- 参考スコア(独自算出の注目度): 23.17822149091485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Multimodal Models (VLMMs) have shown impressive performance in video understanding, yet their ability to accurately capture the temporal order of multiple events remains underexplored. We interestingly observe that, even when video frames are scrambled, models perform very well on the existing benchmarks by comprehensive experiments. This implies that VLMMs may not necessarily rely on accurate sequential processing of visual events, but instead depend on prior knowledge of typical scenarios to answer the question. To benchmark temporal understanding capabilities in VLMMs, we propose VECTOR, designed to explicitly assess a model's ability to identify the temporal order of events. On this benchmark, we observe that various VLMMs often fail to understand the orders of events. To address this, we propose MECOT (Multi-Event instruction fine-tuning with Chain-of-Thought), which (1) trains models on detailed, event-by-event video descriptions and (2) using chain-of-thought prompts at inference to enhance temporal awareness. MECOT outperforms prior arts on VECTOR as well as improving performance on existing video benchmarks, implying effectiveness of temporal understanding. We release our code, model and datasets.
- Abstract(参考訳): Video Large Multimodal Models (VLMM) はビデオ理解において顕著な性能を示しているが、複数のイベントの時間順序を正確に把握する能力はいまだ探索されていない。
興味深いことに、ビデオフレームがスクランブルされたとしても、モデルは包括的な実験によって既存のベンチマークで非常によく機能する。
このことは、VLMMが必ずしも視覚イベントの正確なシーケンシャルな処理に頼るのではなく、質問に答えるために典型的なシナリオの事前の知識に依存することを意味している。
VLMMの時間的理解能力をベンチマークするために,イベントの時間的順序を識別するモデルの能力を明確に評価するVECTORを提案する。
このベンチマークでは、様々なVLMMがイベントの順序を理解できない場合が多い。
そこで本研究では,(1)詳細なイベント・バイ・イベント・ビデオ記述をモデルとしたMECOT(Multi-Event instruction fine-tuning with Chain-of-Thought)を提案する。
MECOTはVECTORの先行技術よりも優れており、既存のビデオベンチマークのパフォーマンスも向上しており、時間的理解の有効性を示している。
コード、モデル、データセットをリリースします。
関連論文リスト
- Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - RTime-QA: A Benchmark for Atomic Temporal Event Understanding in Large Multi-modal Models [85.59909303288921]
大規模マルチモーダルモデル(LMM)の原子時間事象理解能力を評価するための新しいベンチマークRTime-QAを紹介する。
RTime-QAは822の高品質で慎重に編集されたビデオテキストの質問で構成されており、それぞれが人間の専門家によって慎重に注釈付けされている。
LMMの時間的事象理解能力を向上するために、RTime-QAと同様のアノテーションプロセスを利用する14k命令チューニングデータセットであるRTime-ITを導入する。
論文 参考訳(メタデータ) (2025-05-25T12:44:12Z) - TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action [28.930109403769166]
ビデオの時間的理解を高めるための2段階トレーニングフレームワークTEMPURAを提案する。
TEMPURAは、まずマスク付きイベント予測推論を適用して、欠落したイベントを再構築し、密集したイベントアノテーションからステップバイステップの因果説明を生成する。
私たちはVERでTEMPURAをトレーニングします。これは、100万のトレーニングインスタンスと500Kのビデオで構成され、時間的に整ったイベント記述と構造化された推論ステップで構成されています。
論文 参考訳(メタデータ) (2025-05-02T21:00:17Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [55.48403691519395]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Knowing Where to Focus: Event-aware Transformer for Video Grounding [40.526461893854226]
イベント対応動的モーメントクエリを定式化し、入力固有のコンテンツと動画の位置情報を考慮に入れます。
実験では、イベント対応動的モーメントクエリの有効性と効率を実証し、いくつかのビデオグラウンドベンチマークで最先端のアプローチより優れていることを示した。
論文 参考訳(メタデータ) (2023-08-14T05:54:32Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。