論文の概要: Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs
- arxiv url: http://arxiv.org/abs/2506.17630v1
- Date: Sat, 21 Jun 2025 08:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.514192
- Title: Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs
- Title(参考訳): LLMにおける遅延メモリアンカーの発見
- Authors: Yang Wu, Yifan Zhang, Yiwei Wang, Yujun Cai, Yurong Wu, Yuran Wang, Ning Xu, Jian Cheng,
- Abstract要約: 大きな言語モデル(LLM)は印象的な推論機能を示している。
彼らの成功の多くは、真の推論よりも、暗記された回答推論パターンに起因している、とエビデンスは示唆している。
本稿では, 応答キューを体系的に操作し, 間接的, 行動解析によるモデル行動の探索を行う5段階の応答可視プロンプトフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.556628696390767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) demonstrate impressive reasoning capabilities, growing evidence suggests much of their success stems from memorized answer-reasoning patterns rather than genuine inference. In this work, we investigate a central question: are LLMs primarily anchored to final answers or to the textual pattern of reasoning chains? We propose a five-level answer-visibility prompt framework that systematically manipulates answer cues and probes model behavior through indirect, behavioral analysis. Experiments across state-of-the-art LLMs reveal a strong and consistent reliance on explicit answers. The performance drops by 26.90\% when answer cues are masked, even with complete reasoning chains. These findings suggest that much of the reasoning exhibited by LLMs may reflect post-hoc rationalization rather than true inference, calling into question their inferential depth. Our study uncovers the answer-anchoring phenomenon with rigorous empirical validation and underscores the need for a more nuanced understanding of what constitutes reasoning in LLMs.
- Abstract(参考訳): LLM(Large Language Models)は印象的な推論能力を示しているが、その成功の多くは、真の推論ではなく、記憶された回答推論パターンに由来することを示唆する証拠が増えている。
本研究では,LLMは最終回答や推論連鎖のテキストパターンに主に固定されているか,という,中心的な疑問について検討する。
本稿では, 応答キューを体系的に操作し, 間接的, 行動解析によるモデル行動の探索を行う5段階の応答可視プロンプトフレームワークを提案する。
最先端のLSMに対する実験では、明確な答えに強く一貫性のある信頼が示される。
完全な推論チェーンであっても、回答キューがマスクされた場合、パフォーマンスは26.90\%低下する。
これらの結果は, LLMが示す推論の多くは, 真の推論ではなく, ポストホックな合理化を反映し, 推論深度を問うものであることを示唆している。
本研究は, 厳密な実証実験により解答・解答現象を明らかにし, LLMの推論を構成するものについて, より微妙な理解の必要性を浮き彫りにしている。
関連論文リスト
- Self-Reflective Planning with Knowledge Graphs: Enhancing LLM Reasoning Reliability for Question Answering [9.601307470705732]
本稿では,知識グラフと大規模言語モデルを相乗化するフレームワークである自己回帰計画(SRP)を提案する。
計画プロセスにおいて、SRPはまず、ガイドプランニングとリフレクションのための参照を検索する。
推論経路を介してKGから知識を検索した後、検索結果を判断し、回答が正しく検索されるまで推論経路を編集して反復反射を行う。
論文 参考訳(メタデータ) (2025-05-26T01:59:00Z) - Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。
我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。
ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文 参考訳(メタデータ) (2025-05-01T18:12:30Z) - No Need for Explanations: LLMs can implicitly learn from mistakes in-context [14.508050809497847]
我々は,大規模な言語モデルが誤りからより効果的に学習する理由を,明確な正当性を持たずに研究する。
我々は、誤答がLLM学習にとってより有益である一方で、モデルに過度に拘束された明確な補正的合理性を示す証拠を見出した。
論文 参考訳(メタデータ) (2025-02-12T16:31:21Z) - Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。
大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。
LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文 参考訳(メタデータ) (2024-07-31T18:47:11Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
LLMは、一貫した正確な答えを提供するために、一般的な事実を抽象化し、適用するのに苦労することが多い。
このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。