論文の概要: The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination
- arxiv url: http://arxiv.org/abs/2510.22977v1
- Date: Mon, 27 Oct 2025 03:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.442838
- Title: The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination
- Title(参考訳): 推論のトラップ:LLM推論の強化がツールの幻覚をいかに増幅するか
- Authors: Chenlong Yin, Zeyang Sha, Shiwen Cui, Changhua Meng,
- Abstract要約: 本稿では,Reasoning RLによる推論の段階的向上が,タスク性能向上に比例してツール幻覚を増大させることを示す。
機械的に、RLの推論はツール-信頼性関連表現を不均等に崩壊させ、後層残留ストリームに集中した増幅された発散物として幻覚表面を呈する。
- 参考スコア(独自算出の注目度): 11.89501927277778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing the reasoning capabilities of Large Language Models (LLMs) is a key strategy for building Agents that "think then act." However, recent observations, like OpenAI's o3, suggest a paradox: stronger reasoning often coincides with increased hallucination, yet no prior work has systematically examined whether reasoning enhancement itself causes tool hallucination. To address this gap, we pose the central question: Does strengthening reasoning increase tool hallucination? To answer this, we introduce SimpleToolHalluBench, a diagnostic benchmark measuring tool hallucination in two failure modes: (i) no tool available, and (ii) only distractor tools available. Through controlled experiments, we establish three key findings. First, we demonstrate a causal relationship: progressively enhancing reasoning through RL increases tool hallucination proportionally with task performance gains. Second, this effect transcends overfitting - training on non-tool tasks (e.g., mathematics) still amplifies subsequent tool hallucination. Third, the effect is method-agnostic, appearing when reasoning is instilled via supervised fine-tuning and when it is merely elicited at inference by switching from direct answers to step-by-step thinking. We also evaluate mitigation strategies including Prompt Engineering and Direct Preference Optimization (DPO), revealing a fundamental reliability-capability trade-off: reducing hallucination consistently degrades utility. Mechanistically, Reasoning RL disproportionately collapses tool-reliability-related representations, and hallucinations surface as amplified divergences concentrated in late-layer residual streams. These findings reveal that current reasoning enhancement methods inherently amplify tool hallucination, highlighting the need for new training objectives that jointly optimize for capability and reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力を強化することは、エージェントを構築する上で重要な戦略である。
しかし、OpenAIのo3のような最近の観測はパラドックスを示唆している: 強い推論は幻覚の増加としばしば一致するが、それ自身は道具幻覚を引き起こすかどうかを体系的に検討する以前の研究は行われていない。
このギャップに対処するために、我々は中心的な疑問を提起する: 推論の強化は道具の幻覚を高めるか?
これに答えるために、私たちはSimpleToolHalluBenchを紹介した。
(i)ツールがない、そして
(ii)散逸器のみ使用。
制御実験により,3つの重要な知見が得られた。
まず、RLによる推論の漸進的な向上は、タスクのパフォーマンス向上に比例してツール幻覚を増加させる、という因果関係を示す。
第二に、この効果は過度に適合する - 非ツールタスク(例えば数学)のトレーニングは、その後のツール幻覚を増幅する。
第三に、その効果はメソッド非依存であり、教師付き微調整によって推論が注入されたり、直接回答からステップバイステップ思考に切り替えて推論時にのみ誘発されたりする際に現れる。
また,プロンプト工学や直接選好最適化(DPO)などの緩和戦略も評価し,基礎的な信頼性と信頼性のトレードオフを明らかにした。
機械的に、RLの推論はツール-信頼性関連表現を不均等に崩壊させ、後層残留ストリームに集中した増幅された発散物として幻覚表面を呈する。
これらの結果から,現在の推論強化手法はツール幻覚を本質的に増幅し,能力と信頼性を共同で最適化する新たなトレーニング目標の必要性を強調している。
関連論文リスト
- Mitigating Hallucination in Multimodal Reasoning via Functional Attention Control [17.712786361140818]
幻覚は依然として持続的な失敗モードであり、誤った推論連鎖と視覚的内容の誤解釈として現れている。
本研究は,注目頭部が段階的分割を示し,浅い頭部が主に知覚に役立ち,深い頭部が象徴的推論に傾いていることを観察する。
本稿では,2段階の軽量で解釈可能な機能的頭部識別とクラス言語再スケーリングを提案する。
論文 参考訳(メタデータ) (2025-10-11T16:54:41Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet [93.00109641811788]
テストタイムスケーリングは、モデルが長い推論チェーンを生成することによって、推論時間計算を増加させる。
本手法は,知識集約型タスクにおいて,高い事実的精度と低幻覚率が不可欠である場合において,まだ有効ではないことを示す。
以上の結果から,テスト時間計算の増大は必ずしも精度の向上には至らず,多くの場合において幻覚の増大につながることが示唆された。
論文 参考訳(メタデータ) (2025-09-08T16:28:25Z) - The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Are Reasoning Models More Prone to Hallucination? [70.04436965009072]
最近進化した大推論モデル(LRM)は、長いチェーン・オブ・シークレット(CoT)推論能力を持つ複雑なタスクを解く上で、強力な性能を示している。
推論モデルは幻覚の傾向が強いか?
本稿では3つの観点からその問題に対処する。
論文 参考訳(メタデータ) (2025-05-29T16:53:41Z) - Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models [8.97308732968526]
本研究では,制約付き知識領域における幻覚の因果関係について,チェーン・オブ・ソート(Chain-of-Thought)の軌跡を監査することによって検討する。
我々の分析によると、長いCoT設定では、RLLMは欠陥のある反射的推論を通じてバイアスやエラーを反復的に補強することができる。
驚いたことに、幻覚の根源にある直接的な介入でさえ、その効果を覆すことができないことが多い。
論文 参考訳(メタデータ) (2025-05-19T14:11:09Z) - Detection and Mitigation of Hallucination in Large Reasoning Models: A Mechanistic Perspective [11.013059864022667]
推論の幻覚は論理的に一貫性があるが、事実的に誤った推論トレースである。
これらのエラーは構造化推論に埋め込まれており、検出が難しく、潜在的に有害である可能性がある。
本稿では,ロジット間のばらつきを測定することによって推論の深さを定量化するReasoning Scoreを提案する。
また,ステップレベルの深い推論報酬をポテンシャルベース形状に組み込んだ強化強化学習アルゴリズムGRPO-Rを導入する。
論文 参考訳(メタデータ) (2025-05-19T09:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。