論文の概要: Knowing the Answer Isn't Enough: Fixing Reasoning Path Failures in LVLMs
- arxiv url: http://arxiv.org/abs/2512.06258v1
- Date: Sat, 06 Dec 2025 03:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.2702
- Title: Knowing the Answer Isn't Enough: Fixing Reasoning Path Failures in LVLMs
- Title(参考訳): 答えが十分でないことを知る:LVLMにおける推論経路障害の修正
- Authors: Chaoyang Wang, Yangfan He, Yiyang Zhou, Yixuan Wang, Jiaqi Liu, Peng Xia, Zhengzhong Tu, Mohit Bansal, Huaxiu Yao,
- Abstract要約: 我々はLVLM(Large Vision-Language Models)の重大な欠陥を明らかにした。
これらのモデルが正しい答えを知っていても、誤った推論経路を通じて頻繁にそこに到達します。
PSO(Path-Select Optimization)は,既存のLVLMの推論性能と安定性を両立させる2段階のポストトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 85.37131922131657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We reveal a critical yet underexplored flaw in Large Vision-Language Models (LVLMs): even when these models know the correct answer, they frequently arrive there through incorrect reasoning paths. The core issue is not a lack of knowledge, but a path selection bias within the vast reasoning search space. Although LVLMs are often capable of sampling correct solution trajectories, they disproportionately favor unstable or logically inconsistent ones, leading to erratic and unreliable outcomes. The substantial disparity between Pass@K (with large K) and Pass@1 across numerous models provides compelling evidence that such failures primarily stem from misreasoning rather than ignorance. To systematically investigate and address this issue, we propose PSO (Path-Select Optimization), a two-stage post-training framework designed to enhance both the reasoning performance and stability of existing LVLMs. In the first stage, we employ Group Relative Policy Optimization (GRPO) with template and answer-based rewards to cultivate structured, step-by-step reasoning. In the second stage, we conduct online preference optimization, where the model samples reasoning paths from GRPO-generated data, self-evaluates them, and aligns itself toward the preferred trajectories. Incorrect or suboptimal paths are concurrently stored in a Negative Replay Memory (NRM) as hard negatives, which are periodically revisited to prevent the model from repeating prior mistakes and to facilitate continual reasoning refinement. Extensive experiments show that PSO effectively prunes invalid reasoning paths, substantially enhances reasoning accuracy (with 7.4% improvements on average), and yields more stable and consistent chains of thought. Our code will be available at https://github.com/aiming-lab/PSO.
- Abstract(参考訳): 我々は,LVLM(Large Vision-Language Models)の重大な欠陥を明らかにした。
主な問題は知識の欠如ではなく、膨大な推論検索空間内の経路選択バイアスである。
LVLMは、しばしば正しい解軌跡をサンプリングすることができるが、不安定で論理的に矛盾するものを不当に好んで好んでおり、不安定で信頼性の低い結果をもたらす。
Pass@K(大きなKを持つ)とPass@1(大きなKを持つ)の相違は、これらの失敗が無知というよりも、主に誤認に起因するという説得力のある証拠である。
PSO(Path-Select Optimization)は,既存のLVLMの推論性能と安定性を両立させる2段階のポストトレーニングフレームワークである。
最初の段階では、構造化されたステップバイステップの推論を養うために、テンプレートと回答に基づく報酬を備えたグループ相対政策最適化(GRPO)を採用しています。
第2段階では、モデルがGRPO生成データから推論経路をサンプリングし、自己評価を行い、好みの軌道に順応するオンライン優先最適化を行う。
負の再生記憶(NRM)に誤りまたは最適でない経路を同時にハードネガティブとして格納し、モデルが事前のミスを繰り返しないように定期的に再検討し、連続的な推論改善を容易にする。
大規模な実験により、PSOは無効な推論経路を効果的に引き起こし、推論精度を大幅に向上し(平均で7.4%の改善)、より安定で一貫した思考連鎖をもたらすことが示されている。
私たちのコードはhttps://github.com/aiming-lab/PSO.comで公開されます。
関連論文リスト
- Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning [42.18368547352248]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための有望なパラダイムとして登場した。
欠陥陽性のロールアウトに対して,パラメータフリーの報酬ペナルティを示すFlawed-Aware Policy Optimization (FAPO)を提案する。
FAPOは広い領域で有効であり、トークン予算を増やすことなく、結果の正しさ、プロセスの信頼性、トレーニング安定性を向上させる。
論文 参考訳(メタデータ) (2025-10-26T05:49:38Z) - Cog-Rethinker: Hierarchical Metacognitive Reinforcement Learning for LLM Reasoning [14.57256913655025]
LLM推論のための新しい階層的メタ認知的RLフレームワークであるCog-Rethinkerを提案する。
我々のCog-Rethinkerは主にRLトレーニングのロールアウト手順に焦点を当てています。
問題解決において人間の認識を活用することにより、ゼロ精度の問題をサブプロブレムに分解するようポリシーに促す。
論文 参考訳(メタデータ) (2025-10-13T08:16:21Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。
DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文 参考訳(メタデータ) (2025-06-09T07:11:01Z) - Self-Training Large Language Models with Confident Reasoning [15.260831996769962]
大規模言語モデル(LLM)は、最終回答の前に推論パスを生成することで、印象的なパフォーマンスを示している。
政策最適化による高共役共振経路を微調整する新しい自己学習手法であるCORE-POを提案する。
実験の結果,CORE-POは既存の自己学習法と比較して,4つの分布内および2つの分布外ベンチマークの出力精度を向上することがわかった。
論文 参考訳(メタデータ) (2025-05-23T04:25:10Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。