論文の概要: Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
- arxiv url: http://arxiv.org/abs/2601.21037v1
- Date: Wed, 28 Jan 2026 20:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.433364
- Title: Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
- Title(参考訳): フレームにおける思考 - ビジュアルコンテキストとテスト時間スケーリングによるビデオ推論
- Authors: Chengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen,
- Abstract要約: 映像生成モデルを用いて視覚的推論を定式化する。
視覚変化の少ない連続的な離散計画のための迷路ナビゲーションと、高い視覚変化の連続的な操作のためのタングラムパズルの2つの異なる形態でそれらの能力を評価する。
- 参考スコア(独自算出の注目度): 38.651924340946785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.
- Abstract(参考訳): 視覚言語モデルはテキスト推論に優れているが、複雑な視覚推論に必要な力学をシミュレートすることができないため、細粒度の空間的理解と連続的な行動計画に苦慮することが多い。
本研究では,映像生成モデルを用いて視覚的推論を定式化し,生成したフレームが初期状態と解の間の中間的推論ステップとして機能することを示す。
視覚変化の少ない連続的な離散計画のための迷路ナビゲーションと、高い視覚変化の連続的な操作のためのタングラムパズルの2つの異なる形態でそれらの能力を評価する。
1)ロバストゼロショット一般化: 両方のタスクにおいて、モデルは特定の微調整をせずに、目に見えないデータ分布に対して強い性能を示す。
2) ビジュアルコンテキスト: エージェントアイコンやタングラム形状などの視覚的コンテキストを明示的なコントロールとして効果的に使用することにより、高い視覚的一貫性を維持し、その計画能力を目に見えないパターンに堅牢に適応させることができる。
3) 視覚的テストタイムスケーリング: 逐次計画におけるテストタイムスケーリング法則を観察し, 生成したビデオ長(視覚的推論予算)を増大させることで, 空間的・時間的に複雑な経路に対するゼロショットの一般化が向上する。
これらの結果は、ビデオ生成は単なるメディアツールではなく、視覚的推論のためのスケーラブルで一般化可能なパラダイムであることを示唆している。
関連論文リスト
- STARCaster: Spatio-Temporal AutoRegressive Video Diffusion for Identity- and View-Aware Talking Portraits [44.82339975771063]
STARCasterは、音声駆動のポートレートアニメーションとフリーポイントのトーキングポートレートの両方に対処する、アイデンティティを意識したビデオ拡散モデルである。
モデルは推論時に生成されたものよりも長い時間的文脈から学習し、既存の自己回帰的アプローチに共通する過度に静的なアニメーションを緩和する。
論文 参考訳(メタデータ) (2025-12-15T11:59:01Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - Plan-X: Instruct Video Generation via Semantic Planning [36.020841550221824]
Plan-Xは、ビデオ生成プロセスを指示するための高レベルのセマンティックプランニングを明示的に実施するフレームワークである。
本フレームワークは視覚幻覚を著しく低減し,マルチモーダルコンテキストに整合した細粒度な命令整列映像生成を可能にする。
論文 参考訳(メタデータ) (2025-11-22T08:59:09Z) - Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。
構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-21T23:24:28Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。