論文の概要: Decoupling Reasoning and Perception: An LLM-LMM Framework for Faithful Visual Reasoning
- arxiv url: http://arxiv.org/abs/2509.23322v1
- Date: Sat, 27 Sep 2025 14:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.159931
- Title: Decoupling Reasoning and Perception: An LLM-LMM Framework for Faithful Visual Reasoning
- Title(参考訳): 推論と知覚の分離: 忠実なビジュアル推論のためのLLM-LMMフレームワーク
- Authors: Hongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye,
- Abstract要約: 大規模言語モデル(LLM)のための学習不要なビジュアル推論パイプラインを導入する。
強力なLLMは、LMMを戦略的に尋問して、論理的連鎖に必要な特定の視覚情報を抽出する高レベルの推論をオーケストレーションする。
この枠組みは視覚的推論過程を効果的に制御し, 視覚的根拠のない推論ステップの大幅な削減と, 忠実さの大幅な改善に繋がる。
- 参考スコア(独自算出の注目度): 34.940968264459805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant advancements in the reasoning capabilities of Large Language Models (LLMs) are now driven by test-time scaling laws, particularly those leveraging extended Chain-of-Thought (CoT) reasoning. Inspired by these breakthroughs, researchers have extended these paradigms to Large Multimodal Models (LMMs). However, a critical limitation emerges: as their reasoning chains extend, LMMs increasingly rely on textual logic, progressively losing grounding in the underlying visual information. This leads to reasoning paths that diverge from the image content, culminating in erroneous conclusions. To address this, we introduce a strikingly simple yet effective training-free visual-reasoning pipeline. The core concept is to decouple the reasoning and perception processes. A powerful LLM orchestrates the high-level reasoning, strategically interrogating a LMM to extract specific visual information required for its logical chain. The LMM, in turn, functions exclusively as a visual question-answering engine, supplying the necessary perceptual details on demand. This lightweight, plug-and-play approach requires no additional training or architectural changes. Comprehensive evaluations validate that our framework effectively governs the visual reasoning process, leading to a significant reduction in visually-unfounded reasoning steps and a substantial improvement in reasoning fidelity.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力の顕著な進歩は、テスト時のスケーリング法則、特に拡張されたチェーン・オブ・ソート(CoT)推論を利用するものによって推進されている。
これらのブレークスルーに触発され、研究者はこれらのパラダイムをLMM(Large Multimodal Models)に拡張した。
しかし、重要な制限が出現する: 推論チェーンが拡大するにつれて、LMMはテキスト論理にますます依存し、基盤となる視覚情報の基盤を徐々に失う。
これにより、画像の内容から分岐する推論パスが発生し、誤った結論が導かれる。
この問題に対処するために、私たちは驚くほどシンプルで効果的なトレーニング不要なビジュアル推論パイプラインを導入しました。
中心となる概念は、推論と知覚のプロセスを分離することである。
強力なLLMは、LMMを戦略的に尋問して、論理的連鎖に必要な特定の視覚情報を抽出する高レベルの推論をオーケストレーションする。
LMMは視覚的質問応答エンジンとしてのみ機能し、需要に関する必要な知覚的詳細を提供する。
この軽量でプラグアンドプレイのアプローチでは、追加のトレーニングやアーキテクチャの変更は必要ありません。
包括的評価は、我々のフレームワークが視覚的推論過程を効果的に制御し、視覚的根拠のない推論ステップの大幅な削減と、推論忠実性の大幅な改善につながることを実証する。
関連論文リスト
- Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。
我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [59.92786855289658]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。
実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z) - FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering [46.41364317172677]
大規模言語モデル(LLM)は、しばしば誤ったあるいは幻覚的な応答を生成することで挑戦される。
本稿では,知識グラフから得られた検証可能な推論ステップに回答を固定することで,LLM応答の事実性を改善するための統合フレームワークFiDeLiSを提案する。
トレーニング不要のフレームワークである本手法は,性能の向上だけでなく,異なるベンチマークにおける現実性や解釈可能性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-05-22T17:56:53Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。