論文の概要: Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction
- arxiv url: http://arxiv.org/abs/2606.05769v1
- Date: Thu, 04 Jun 2026 06:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.604486
- Title: Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction
- Title(参考訳): ビデオイベント予測のためのインターリーブ・レイト・ビジュアル推論
- Authors: Tianxiang Jiang, Linquan Wu, Sheng Xia, Songze Li, Ziang Yan, Haoyu Yang, Yu Qiao, Yi Wang,
- Abstract要約: 本稿では、インターリーブされた視覚的推論フレームワークFuture-L1を紹介する。
自動回帰復号中にMLLMが言語トークンと連続的な視覚的スパンを交互に切り替えることを可能にする。
Future-L1は両方のベンチマークで最新の結果を達成する。
- 参考スコア(独自算出の注目度): 43.50136583739717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Existing video MLLMs usually verbalize intermediate future reasoning in text space: once visual evidence is verbalized, fine-grained motion, geometry, and interaction cues can be lost, leading to plausible but visually ungrounded hallucinations. We introduce Future-L1, an interleaved latent visual reasoning framework that lets an MLLM alternate between language tokens and continuous latent visual spans during autoregressive decoding. To train this capability, we construct Future-L1-50K by selecting examples where future visual hints help prediction and align latent states to future-frame embeddings, then further optimize sampled latent trajectories with LA-DAPO, a latent-aware RL objective with outcome-contrastive and temporal-diversity rewards. Future-L1 achieves new state-of-the-art results on both benchmarks: on FutureBench, it improves Qwen3-VL-8B from 61.0 to 85.4 and exceeds the previous best Video-CoE by 10.4 points; on TwiFF-Bench, it improves the average score from 2.44 to 3.04. These results suggest that future-oriented video reasoning benefits from preserving intermediate visual semantics in latent space rather than translating every reasoning step into text.
- Abstract(参考訳): ビデオイベント予測(VEP)は、観察されていない将来の状態を部分的なビデオ証拠から推測するモデルを必要とする。
既存のビデオMLLMは通常、テキスト空間における中間的将来の推論を言葉で表す: 視覚的証拠が一度言語化されると、細粒度の動き、幾何学、相互作用の手がかりが失われる可能性がある。
自動回帰復号中にMLLMが言語トークンと連続潜時視覚スパンを交互に切り替えることのできる、インターリーブされた潜時視覚推論フレームワークであるFuture-L1を紹介する。
この能力を訓練するために、将来の視覚的ヒントが将来のフレームへの埋め込みを予測し調整する例を選択してFuture-L1-50Kを構築する。
FutureBenchでは、Qwen3-VL-8Bを61.0から85.4に改善し、以前の最高のVideo-CoEを10.4ポイント上回り、TwiFF-Benchでは平均スコアを2.44から3.04に改善した。
これらの結果は,すべての推論ステップをテキストに翻訳するのではなく,中間的な視覚的セマンティクスを潜在空間で保存することによる将来指向のビデオ推論のメリットを示唆している。
関連論文リスト
- FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs [94.33687833634275]
Future Omniは、オーディオ視覚環境から全モードの将来の予測を評価するために設計された最初のベンチマークである。
Future Omniは、スケーラブルなLCM支援の人-イン-ザ-ループパイプラインで構築されており、919のビデオと1,034のマルチチョイスQAペアを含んでいる。
13のOmni-modalモデルと7つのビデオオンリーモデルによる評価は、現在のシステムは、特に音声の重みのあるシナリオにおいて、音声・視覚の将来の予測に苦慮していることを示している。
論文 参考訳(メタデータ) (2026-01-20T10:47:20Z) - Fostering Video Reasoning via Next-Event Prediction [61.70045315542766]
我々は,将来的なビデオセグメントを,時間的推論を促進するためのリッチで自己指導的な信号として活用する学習タスクとして,次世代予測(NEP)を提案する。
このタスクを支援するために,V1-33Kという,多様な実世界のシナリオにまたがる33,000のビデオセグメントを自動抽出したデータセットをキュレートする。
NEPはMLLMの時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供する。
論文 参考訳(メタデータ) (2025-05-28T15:13:34Z) - Palm: Predicting Actions through Language Models @ Ego4D Long-Term
Action Anticipation Challenge 2023 [100.32802766127776]
Palmは、視覚言語と大規模言語モデルを利用した長期的な行動予測タスクのソリューションである。
入力ビデオから抽出したフレーム記述とアクションラベルに基づいて、将来のアクションを予測する。
論文 参考訳(メタデータ) (2023-06-28T20:33:52Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - VAE^2: Preventing Posterior Collapse of Variational Video Predictions in
the Wild [131.58069944312248]
本稿では,VAE-in-VAEまたはVAE$2の新規なVAE構造を提案する。
我々は、観察されたビデオシーケンスの一部を、その過去と未来を橋渡しするランダムな遷移状態として扱い、あらゆる可能な遷移状態の下で、ビデオシーケンス上のマルコフ連鎖の可能性を最大化する。
VAE$2$は、未来と観測の間の直接的な依存を断ち切るため、後方崩壊問題を広範囲に緩和することができ、トレーニングデータによって提供される決定的な未来を直接遅らせることはない。
論文 参考訳(メタデータ) (2021-01-28T15:06:08Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。