論文の概要: Fostering Video Reasoning via Next-Event Prediction
- arxiv url: http://arxiv.org/abs/2505.22457v1
- Date: Wed, 28 May 2025 15:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.683912
- Title: Fostering Video Reasoning via Next-Event Prediction
- Title(参考訳): 次世代予測によるビデオ推論
- Authors: Haonan Wang, Hongfu Liu, Xiangyan Liu, Chao Du, Kenji Kawaguchi, Ye Wang, Tianyu Pang,
- Abstract要約: 我々は,将来的なビデオセグメントを,時間的推論を促進するためのリッチで自己指導的な信号として活用する学習タスクとして,次世代予測(NEP)を提案する。
このタスクを支援するために,V1-33Kという,多様な実世界のシナリオにまたがる33,000のビデオセグメントを自動抽出したデータセットをキュレートする。
NEPはMLLMの時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供する。
- 参考スコア(独自算出の注目度): 61.70045315542766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next-token prediction serves as the foundational learning task enabling reasoning in LLMs. But what should the learning task be when aiming to equip MLLMs with temporal reasoning capabilities over video inputs? Existing tasks such as video question answering often rely on annotations from humans or much stronger MLLMs, while video captioning tends to entangle temporal reasoning with spatial information. To address this gap, we propose next-event prediction (NEP), a learning task that harnesses future video segments as a rich, self-supervised signal to foster temporal reasoning. We segment each video into past and future frames: the MLLM takes the past frames as input and predicts a summary of events derived from the future frames, thereby encouraging the model to reason temporally in order to complete the task. To support this task, we curate V1-33K, a dataset comprising 33,000 automatically extracted video segments spanning diverse real-world scenarios. We further explore a range of video instruction-tuning strategies to study their effects on temporal reasoning. To evaluate progress, we introduce FutureBench to assess coherence in predicting unseen future events. Experiments validate that NEP offers a scalable and effective training paradigm for fostering temporal reasoning in MLLMs.
- Abstract(参考訳): 次世代の予測は、LLMにおける推論を可能にする基礎的な学習課題として機能する。
しかし、ビデオ入力よりも時間的推論能力を備えたMLLMの装備を目指す場合、学習課題とは何か。
ビデオ質問応答のような既存のタスクは、人間のアノテーションやより強力なMLLMに依存することが多いが、ビデオキャプションは時間的推論と空間的情報との絡み合いがちである。
このギャップに対処するために,将来的なビデオセグメントを利用した学習課題であるNext-event Prediction (NEP)を提案する。
MLLMは過去のフレームを入力として、将来のフレームから派生した事象の要約を予測し、タスクを完了させるために時間的に推論するようモデルに促す。
このタスクを支援するために,V1-33Kという,多様な実世界のシナリオにまたがる33,000のビデオセグメントを自動抽出したデータセットをキュレートする。
さらに,時間的推論に与える影響を研究するために,ビデオ指導指導戦略について検討する。
進捗を評価するために、FutureBenchを導入し、目に見えない未来の事象を予測するコヒーレンスを評価する。
NEPはMLLMの時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供する。
関連論文リスト
- MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding [55.32878803528196]
ビデオの時間的理解は、マルチモーダルな大言語モデル(MLLM)において、ビデオ内のイベントを推論するために不可欠である。
タイムスタンプを意識したマルチセグメントグラウンドの導入により時間的理解を高める新しいRLに基づくMUSEGを提案する。
効果的な学習を容易にするため,段階的な報酬付きRL学習レシピを設計し,時間的根拠に基づく推論に向けてモデルを段階的に導く。
論文 参考訳(メタデータ) (2025-05-27T04:50:07Z) - TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action [28.930109403769166]
ビデオの時間的理解を高めるための2段階トレーニングフレームワークTEMPURAを提案する。
TEMPURAは、まずマスク付きイベント予測推論を適用して、欠落したイベントを再構築し、密集したイベントアノテーションからステップバイステップの因果説明を生成する。
私たちはVERでTEMPURAをトレーニングします。これは、100万のトレーニングインスタンスと500Kのビデオで構成され、時間的に整ったイベント記述と構造化された推論ステップで構成されています。
論文 参考訳(メタデータ) (2025-05-02T21:00:17Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning [42.928144657587325]
本稿では,従来のショートフォームビデオMLLMを長大なビデオ理解に適用するための新デザインであるTimeSuiteを提案する。
TimeSuiteは、ショートフォームMLLMの長いビデオ理解能力を向上するための、成功したソリューションを提供する。
さらに,9つのタスクと349kの高品質な接地アノテーションからなる総合的な接地中心の命令データセットであるTimeProを紹介する。
論文 参考訳(メタデータ) (2024-10-25T17:19:55Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。