論文の概要: Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence
- arxiv url: http://arxiv.org/abs/2510.20470v1
- Date: Thu, 23 Oct 2025 12:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.843005
- Title: Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence
- Title(参考訳): Conan氏: マルチスケールのビジュアルエビデンスに対する検出のように、進歩的な学習は理にかなっている
- Authors: Kun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun,
- Abstract要約: コナンはエビデンスに基づくマルチステップビデオ推論のためのフレームワークである。
コナンはQwen2.5-VL-7B-インストラクションを平均10%以上精度で上回る。
- 参考スコア(独自算出の注目度): 56.40380810755929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video reasoning, which requires multi-step deduction across frames, remains a major challenge for multimodal large language models (MLLMs). While reinforcement learning (RL)-based methods enhance reasoning capabilities, they often rely on text-only chains that yield ungrounded or hallucinated conclusions. Conversely, frame-retrieval approaches introduce visual grounding but still struggle with inaccurate evidence localization. To address these challenges, we present Conan, a framework for evidence-grounded multi-step video reasoning. Conan identifies contextual and evidence frames, reasons over cross-frame clues, and adaptively decides when to conclude or explore further. To achieve this, we (1) construct Conan-91K, a large-scale dataset of automatically generated reasoning traces that includes frame identification, evidence reasoning, and action decision, and (2) design a multi-stage progressive cold-start strategy combined with an Identification-Reasoning-Action (AIR) RLVR training framework to jointly enhance multi-step visual reasoning. Extensive experiments on six multi-step reasoning benchmarks demonstrate that Conan surpasses the baseline Qwen2.5-VL-7B-Instruct by an average of over 10% in accuracy, achieving state-of-the-art performance. Furthermore, Conan generalizes effectively to long-video understanding tasks, validating its strong scalability and robustness.
- Abstract(参考訳): フレーム間の多段階推論を必要とするビデオ推論は、MLLM(Multimodal large language model)の大きな課題である。
強化学習(RL)に基づく手法は推論能力を高めるが、しばしばテキストのみの連鎖に依存し、非基底的あるいは幻覚的結論をもたらす。
逆に、フレーム検索アプローチは視覚的接地を導入するが、いまだに不正確な証拠の局所化に苦慮している。
これらの課題に対処するために,エビデンスに基づくマルチステップビデオ推論のためのフレームワークであるConanを紹介する。
コナンはコンテキストフレームとエビデンスフレーム、クロスフレームの手がかりに対する理由を特定し、いつ結論を出すか、さらに調査するかを適応的に決定する。
これを実現するために,(1)フレーム識別,エビデンス推論,行動決定を含む自動推論トレースの大規模データセットであるConan-91Kを構築し,(2)識別・推論・アクション(AIR)RLVRトレーニングフレームワークと組み合わせた多段階進行型コールドスタート戦略を設計し,多段階視覚推論を協調的に強化する。
6つの多段階推論ベンチマークの大規模な実験により、コナンはQwen2.5-VL-7B-インストラクションを平均10%超の精度で上回り、最先端の性能を達成した。
さらに、Conanは長時間ビデオ理解タスクに効果的に一般化し、その強力なスケーラビリティと堅牢性を検証する。
関連論文リスト
- SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes [26.897741358707396]
本稿では,3次元シーンにおけるグラウンドド質問応答のための新しい枠組みを提示することによって,そのギャップを埋める。
まず,3次元シーン(SCENECOT)において,複雑な推論タスクをシンプルかつ管理可能な問題に分解する。
私たちの知る限りでは、これはCoT推論の3Dシーン理解への最初の成功例であり、ステップバイステップのヒューマンライクな推論を可能にします。
論文 参考訳(メタデータ) (2025-10-19T04:57:49Z) - When Thinking Drifts: Evidential Grounding for Robust Video Reasoning [68.75730050161219]
CoT(Chain-of-Thought)メカニズムは、テキストベースのタスクにおける推論を強化した。
CoTはビデオ推論のパフォーマンスを劣化させ、冗長だが内部のモノローグを誤解させる。
ビジュアルエビデンス・リワード(Visual Evidence Reward、VER)は、ビジュアルエビデンスに根ざした推論トレースの生成に明示的に報いる強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-07T16:03:33Z) - CausalStep: A Benchmark for Explicit Stepwise Causal Reasoning in Videos [39.4914316747781]
CausalStepはビデオの段階的因果推論のベンチマークである。
ビデオは因果的にリンクされたユニットに分割し、厳密な段階的な質問応答プロトコルを強制する。
ベンチマークには、6つのカテゴリに100の動画と、1,852のマルチチョイスQAペアが含まれている。
論文 参考訳(メタデータ) (2025-07-22T12:29:13Z) - VidBridge-R1: Bridging QA and Captioning for RL-based Video Understanding Models with Intermediate Proxy Tasks [41.90092896728809]
VidBridge-R1は、"Reason-Then-Respond"パラダイムの競合を効果的に橋渡しする、世界初の多目的ビデオ推論モデルである。
大規模な実験により、VidBridge-R1は1つのモデルにおいて、QAとキャプションの両方で大きなパフォーマンス向上を達成することが示された。
論文 参考訳(メタデータ) (2025-06-10T03:57:53Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos [22.10711693948861]
ビデオにおけるマルチモーダルディープ推論のためのベンチマークMMR-Vを提案する。
ベンチマークの特徴は以下のとおりである。
実験によると、現在のモデルはまだマルチモーダル推論に苦戦している。
論文 参考訳(メタデータ) (2025-06-04T16:33:41Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。