論文の概要: Demystifing Video Reasoning
- arxiv url: http://arxiv.org/abs/2603.16870v1
- Date: Tue, 17 Mar 2026 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.477138
- Title: Demystifing Video Reasoning
- Title(参考訳): Demystifing Video Reasoning
- Authors: Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin, Maijunxian Wang, Ran Ji, Chenyang Gu, Bo Li, Ziqi Huang, Hokin Deng, Dahua Lin, Ziwei Liu, Lei Yang,
- Abstract要約: ビデオモデルにおける推論は、主に拡散認知のステップに沿って現れることを示す。
モデル性能に重要ないくつかの創発的推論行動を特定する。
これらの知見に触発され、私たちは概念実証としてトレーニングフリー戦略を提示した。
- 参考スコア(独自算出の注目度): 71.53763299316041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.
- Abstract(参考訳): 拡散ベースのビデオモデルは、非自明な推論能力を示す。
それまでの作業では、ビデオフレーム間で逐次展開される推論を前提としたChain-of-Frames(CoF)メカニズムが特徴だった。
この研究では、この仮定に挑戦し、根本的に異なるメカニズムを明らかにする。
ビデオモデルにおける推論は、主に拡散認知のステップに沿って現れることを示す。
定性的解析と対象探索実験により、モデルが早期段階において複数の候補解を探索し、段階的に最終解へと収束する過程、すなわち、我々はChain-of-Steps (CoS) と呼ぶ過程を見出した。
このコアメカニズム以外にも,(1)動作記憶,永続的参照の実現,(2)自己補正と拡張,不正確な中間解からの回復,(3)動作前の認識,(3)初期ステップのセマンティックグラウンドの設定,その後のステップの構造化操作など,モデル性能に不可欠ないくつかの創発的推論行動を特定する。
拡散過程において、拡散変換器内の自己進化関数の特殊化がさらに発見され、初期層は高密度知覚構造をコードし、中層は推論を実行し、後層は遅延表現を統合する。
これらの知見に感化されて,異なるランダムシードを持つ同一モデルから潜在軌道をアンサンブルすることで,推論がいかに改善できるかを示す,単純な学習自由戦略を概念実証として提示する。
全体として、我々の研究は、ビデオ生成モデルに推論がどのように現れるのかを体系的に理解し、インテリジェンスのための新しい基盤として、ビデオモデル固有の推論ダイナミクスをより活用するために、将来の研究をガイドする基盤を提供する。
関連論文リスト
- Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning [54.9540824532312]
ウィーバー(Weaver)は、エンドツーエンドのトレーニング可能なマルチモーダル推論エージェントシステムである。
Weaverは複数の複雑なビデオ推論ベンチマークのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2026-02-05T16:19:41Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。
構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-21T23:24:28Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。
モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。