論文の概要: Reasoning Matters: Mitigate Hallucination in Multimodal Large Reasoning Models via Reasoning-Conditioned Preference Optimization
- arxiv url: http://arxiv.org/abs/2605.27906v1
- Date: Wed, 27 May 2026 03:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.718336
- Title: Reasoning Matters: Mitigate Hallucination in Multimodal Large Reasoning Models via Reasoning-Conditioned Preference Optimization
- Title(参考訳): 推論事項:推論条件の最適化によるマルチモーダル大共振モデルにおける幻覚の緩和
- Authors: Jiawei Kong, Hao Fang, Shunxiang Liao, Jinyu Li, Bin Chen, Hao Wu, Shu-Tao Xia, Min Zhang,
- Abstract要約: マルチモーダル大規模推論モデルは推論パラダイムを導入し、複雑な視覚言語タスクに強力な能力を示す。
既存のトレーニングベースの手法では、応答レベルの直接選好最適化(DPO)を通じて幻覚を緩和し、CoT(Chain-of-Thought)と最終回答をモノリシックな出力として扱い、協調的に最適化する。
我々は、応答生成条件としてCoTをモデル化し、異なるCoT条件下で同じ好みの回答を優先し、応答支持型推論連鎖アライメントを促進するReasoning-Conditioned Direct Preference Optimization (RC-DPO) を導出する。
- 参考スコア(独自算出の注目度): 59.20570719781289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Reasoning Models introduce the reasoning paradigm, demonstrating strong capabilities on complex vision-language tasks. However, they still suffer from severe hallucinations. Existing training-based methods typically mitigate hallucinations through response-level direct preference optimization (DPO), where the Chain-of-Thought (CoT) and the final answer are treated as a monolithic output and optimized jointly. We reveal that this formulation performs similarly to answer-only optimization, suggesting that it primarily learns answer-level preference, while leaving CoT-level supervision insufficiently exploited. To address this issue, we explicitly formulate a CoT-oriented preference term and derive Reasoning-Conditioned Direct Preference Optimization (RC-DPO), which models the CoT as a condition for answer generation and contrasts the preference for the same preferred answer under different CoT conditions, promoting answer-supportive reasoning chain alignment. To further improve optimization, we introduce a reasoning-enhanced preference data generation strategy that employs Monte Carlo Tree Search to discover visually grounded and logically consistent CoTs as positive samples, and attention-guided CoT token pruning to construct negative ones. Extensive experiments across various models and benchmarks show that RC-DPO effectively mitigates hallucinations and improves the reliability of the multimodal reasoning process.
- Abstract(参考訳): マルチモーダル大規模推論モデルは推論パラダイムを導入し、複雑な視覚言語タスクに強力な能力を示す。
しかし、深刻な幻覚に悩まされている。
既存のトレーニングベースの手法では、応答レベルの直接選好最適化(DPO)を通じて幻覚を緩和し、CoT(Chain-of-Thought)と最終回答をモノリシックな出力として扱い、協調的に最適化する。
我々は,この定式化が解答のみの最適化と類似していることを明らかにし,CoTレベルの監視が不十分なまま,主に解答レベルの優先性を学ぶことを示唆した。
この問題に対処するため、我々はCoT指向の選好項を明示的に定式化し、Reasoning-Conditioned Direct Preference Optimization (RC-DPO) を導出する。
さらに最適化を改善するために,モンテカルロ木探索を用いて,視覚的に基底と論理的に整合したCoTを正のサンプルとして発見し,注意誘導CoTトークンプルーニングにより負のサンプルを構築する,推論強化された嗜好データ生成戦略を導入する。
RC-DPOは幻覚を効果的に緩和し、マルチモーダル推論プロセスの信頼性を向上させる。
関連論文リスト
- LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models [34.349722314481824]
グループ相対政策最適化は、明示的な価値批判を先導する効果で評価されている。
群平均のようなモノリシックな統計ベースラインへの依存は、軌道空間の相対トポロジーを1つのスカラーに分解する。
我々は、この情報理論のボトルネックに対処する新しいフレームワークLambda Policy Optimization(LambdaPO)を紹介します。
論文 参考訳(メタデータ) (2026-05-19T06:10:24Z) - Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:00:55Z) - Reasoning Pattern Alignment Merging for Adaptive Reasoning [48.347817456299104]
Reasoning Pattern Alignment Merging (RPAM)
RPAMは、クエリ適応推論を容易にする機能アライメントに基づく階層的なモデルマージフレームワークである。
広く使用されている7つの推論ベンチマークの実験により、RPAMは強い性能を維持しながら推論コストを大幅に削減することが示された。
論文 参考訳(メタデータ) (2026-01-07T01:36:39Z) - Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning [31.727984223052648]
本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
論文 参考訳(メタデータ) (2025-05-06T08:46:41Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。