論文の概要: When Thinking Drifts: Evidential Grounding for Robust Video Reasoning
- arxiv url: http://arxiv.org/abs/2510.06077v1
- Date: Tue, 07 Oct 2025 16:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.342042
- Title: When Thinking Drifts: Evidential Grounding for Robust Video Reasoning
- Title(参考訳): ドリフトを考える:ロバストなビデオ推論のための証拠的根拠
- Authors: Mi Luo, Zihui Xue, Alex Dimakis, Kristen Grauman,
- Abstract要約: CoT(Chain-of-Thought)メカニズムは、テキストベースのタスクにおける推論を強化した。
CoTはビデオ推論のパフォーマンスを劣化させ、冗長だが内部のモノローグを誤解させる。
ビジュアルエビデンス・リワード(Visual Evidence Reward、VER)は、ビジュアルエビデンスに根ざした推論トレースの生成に明示的に報いる強化学習フレームワークである。
- 参考スコア(独自算出の注目度): 68.75730050161219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video reasoning, the task of enabling machines to infer from dynamic visual content through multi-step logic, is crucial for advanced AI. While the Chain-of-Thought (CoT) mechanism has enhanced reasoning in text-based tasks, its application to video understanding remains underexplored. This paper presents a systematic analysis revealing that CoT often degrades performance in video reasoning, generating verbose but misleading internal monologues, and leading to hallucinated visual details and overridden correct intuitions - a phenomenon we term "visual thinking drift". We explain this drift through a Bayesian lens, positing that CoT traces often diverge from actual visual evidence, instead amplifying internal biases or language priors, causing models to storytell rather than engage in grounded reasoning. To counteract this, we introduce Visual Evidence Reward (VER), a novel reinforcement learning framework that explicitly rewards the generation of reasoning traces that are verifiably grounded in visual evidence. Comprehensive evaluation across 10 diverse video understanding benchmarks demonstrates that our Video-VER consistently achieves top performance. Our work sheds light on the distinct challenges of video-centric reasoning and encourages the development of AI that robustly grounds its inferences in visual evidence - for large multimodal models that not only "think before answering", but also "see while thinking".
- Abstract(参考訳): ビデオ推論は、機械がマルチステップロジックを通して動的視覚コンテンツから推論できるようにするタスクであり、高度なAIにとって不可欠である。
CoT(Chain-of-Thought)メカニズムは、テキストベースのタスクにおける推論を強化しているが、ビデオ理解への応用はまだ未検討である。
本稿は,CoTが映像推論における性能を低下させ,冗長だが誤解を招く内部モノローグを発生させ,幻覚的な視覚的詳細と過度に正確な直観をもたらす現象である「視覚的思考ドリフト」を呈する現象を提示する。
我々はこのドリフトをベイズレンズを通して説明し、CoTのトレースはしばしば実際の視覚的証拠から分岐し、代わりに内部バイアスや言語先行を増幅し、基礎的な推論を行うのではなく、モデルがストーリーテラーとなることを示唆している。
これに対抗するために,ビジュアルエビデンス・リワード(VER, Visual Evidence Reward)という新しい強化学習フレームワークを紹介した。
10の多様なビデオ理解ベンチマークの総合的な評価は、ビデオバーが一貫して最高のパフォーマンスを達成していることを示している。
私たちの仕事は、ビデオ中心の推論の異なる課題に光を当て、視覚的証拠の推論をしっかりと基礎づけるAIの開発を奨励します。
関連論文リスト
- ViTCoT: Video-Text Interleaved Chain-of-Thought for Boosting Video Understanding in Large Language Models [50.42183477287337]
ビデオ理解は、高いレベルの認知的推論で低レベルの視覚信号をブリッジする上で重要な役割を担っている。
ビデオテキストインターリーブドCoT(ViTCoT)の新たな推論パラダイムについて紹介する。
従来のテキストのみのCoTパラダイムと比較して,ViTCoTは性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-07-14T03:21:13Z) - ImplicitQA: Going beyond frames towards Implicit Video Reasoning [39.63171940350552]
ImplicitQAは、人間のような暗黙の推論でビデオQAモデルをテストするために設計された新しいベンチマークである。
ImplicitQAは、1Kの高品質なクリエイティビティビデオクリップから引き出された1Kの微妙な注釈付きQAペアからなる。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。
本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。
DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-20T13:48:11Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Visual Abductive Reasoning [85.17040703205608]
帰納的推論は、部分的な観察の可能な限りの可能な説明を求める。
本稿では,日常的な視覚的状況下でのマシンインテリジェンスの帰納的推論能力を調べるために,新たなタスクとデータセットであるVisual Abductive Reasoning(VAR)を提案する。
論文 参考訳(メタデータ) (2022-03-26T10:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。