論文の概要: Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2509.24156v1
- Date: Mon, 29 Sep 2025 01:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.668665
- Title: Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models
- Title(参考訳): 推論か検索か? : 大規模推論モデルに対する回答属性の検討
- Authors: Yuhui Wang, Changjiang Li, Guangke Chen, Jiacheng Liang, Ting Wang,
- Abstract要約: 大きな推論モデル (LRMs) は、Chain-of-Thought (CoT) 推論を通じて複雑な問題を解く際、前例のない能力を示す。
最近の研究では、彼らの最後の答えは、しばしば彼ら自身の推論の痕跡と矛盾していることが明らかになっている。
この矛盾は、CoT推論とメモリ検索という2つの競合メカニズムに起因していると仮定する。
本稿では,メモリアンラーニングと強化学習を統合したファインチューニングフレームワークFARLを紹介する。
- 参考スコア(独自算出の注目度): 15.797612515648412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) exhibit unprecedented capabilities in solving complex problems through Chain-of-Thought (CoT) reasoning. However, recent studies reveal that their final answers often contradict their own reasoning traces. We hypothesize that this inconsistency stems from two competing mechanisms for generating answers: CoT reasoning and memory retrieval. To test this hypothesis, we conduct controlled experiments that challenge LRMs with misleading cues during reasoning and/or corrupted answers during retrieval. Our results across models and datasets confirm that both mechanisms operate simultaneously, with their relative dominance influenced by multiple factors: problem domains, model scales, and fine-tuning approaches (e.g., reinforcement learning vs. distillation). The findings reveal a critical limitation in current reasoning fine-tuning paradigms: models can exploit the retrieval mechanism as a shortcut, effectively "hacking" the reward signal and undermining genuine reasoning development. To address this challenge, we introduce FARL, a novel fine-tuning framework that integrates memory unlearning with reinforcement learning. By carefully suppressing retrieval shortcuts during the fine-tuning process, FARL promotes reasoning-dominant behavior and enhances generalizable reasoning capabilities.
- Abstract(参考訳): 大きな推論モデル (LRMs) は、Chain-of-Thought (CoT) 推論を通じて複雑な問題を解く際、前例のない能力を示す。
しかし、最近の研究では、彼らの最後の答えは、しばしば彼ら自身の推論の痕跡と矛盾していることが明らかになっている。
この矛盾は、CoT推論とメモリ検索という2つの競合メカニズムに起因していると仮定する。
この仮説を検証するために、探索中の推論および/または破損した解答において、誤解を招く手がかりでLEMに挑戦する制御実験を行う。
モデルとデータセット間の結果から,両機構が同時に動作し,その相対的優位性は,問題領域,モデルスケール,微調整アプローチ(強化学習と蒸留)の影響を受けていることが確認された。
モデルは検索メカニズムをショートカットとして活用し、報酬シグナルを効果的に「ハック」し、真の推論開発を損なうことができる。
この課題に対処するために、メモリアンラーニングと強化学習を統合する新しい微調整フレームワークであるFARLを紹介する。
微調整過程における検索ショートカットを慎重に抑制することにより、FARLは推論優位な振る舞いを促進し、一般化可能な推論能力を高める。
関連論文リスト
- Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。
本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。
我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文 参考訳(メタデータ) (2025-03-27T17:44:18Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Rethinking harmless refusals when fine-tuning foundation models [0.8571111167616167]
本研究では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に緩和する程度について検討する。
ここでは、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を損なうような倫理的推論トレースを生成するかのどちらかである。
論文 参考訳(メタデータ) (2024-06-27T22:08:22Z) - Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。
モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。