論文の概要: PHANTOM RECALL: When Familiar Puzzles Fool Smart Models
- arxiv url: http://arxiv.org/abs/2510.11812v1
- Date: Mon, 13 Oct 2025 18:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.051944
- Title: PHANTOM RECALL: When Familiar Puzzles Fool Smart Models
- Title(参考訳): ファーナント・リコール(動画)
- Authors: Souradeep Mukhopadhyay, Rishabh Baral, Nimeesh Mahajan, Samhitha Harish, Aswin RRV, Mihir Parmar, Mutsumi Nakamura, Chitta Baral,
- Abstract要約: GPT、Gemini、Claudeといった大規模言語モデル(LLM)は古典論理パズルの解法に長けていることが多い。
最近の証拠は、これらのモデルは第一原理から推論するのではなく、記憶されたテンプレートにしばしば依存していることを示している。
パズルの精度がほぼ完璧であるにもかかわらず、モデルは修正されていないものに対して人間を著しく過小評価している。
- 参考スコア(独自算出の注目度): 29.172155264798466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) such as GPT, Gemini, and Claude often appear adept at solving classic logic puzzles--but how much genuine reasoning underlies their answers? Recent evidence suggests that these models frequently rely on memorized templates rather than reasoning from first principles. When puzzles are slightly modified, their performance collapses, revealing a striking fragility. In particular, we asked: Have LLMs addressed these issues? To what extent? How about perturbations to other puzzles? Is there a general way of reformulating the prompt so that the models do better? To examine these things systematically, we introduce PHANTOM RECALL, a benchmark comprising 25 well-known logic puzzles and 149 carefully designed perturbations that preserve reasoning structure but alter superficial details and solutions. We evaluate eleven leading LLMs and identify a recurring failure mode--phantom recall--where models confidently reproduce memorized solutions or spurious rationales that no longer fit the altered scenario. To probe and mitigate this issue, we contribute three tools: (i) an automated logical-equivalence judge to detect reasoning mismatches, (ii) a taxonomy of fine-grained reasoning error categories, and (iii) a prompting-based mitigation framework guided by these categories. Despite near-perfect accuracy on unmodified puzzles, models significantly underperform humans on perturbed ones, exhibiting both phantom recall and over-elaboration. Our findings reveal a crucial limitation: LLMs often fail to re-reason when contextual cues shift--highlighting the gap between linguistic fluency and logical understanding.
- Abstract(参考訳): GPT、Gemini、Claudeといった大規模言語モデル(LLM)は、古典論理パズルの解法に長けていることが多い。
最近の証拠は、これらのモデルは第一原理から推論するのではなく、記憶されたテンプレートにしばしば依存していることを示している。
パズルがわずかに修正されると、パフォーマンスが崩壊し、重大な脆弱性が明らかになる。
LLMはこれらの問題に対処しましたか?
どこまで?
他のパズルの摂動はどうですか。
モデルを改善するために、プロンプトを変更する一般的な方法はありますか?
本稿では,25の有名な論理パズルと149の注意深く設計された摂動を含むベンチマークであるPHANTOM RECALLを紹介する。
そこでは, 記憶された解を確実に再現するモデルや, 変化したシナリオに合わない突発的論理を再現するモデルについて検討した。
この問題を調査し緩和するために、私たちは3つのツールを提供しています。
一 推論ミスマッチを検出するための自動論理等価判定器
二 微粒な推論誤り分類、並びに
(三)これらのカテゴリーによって導かれる刺激に基づく緩和の枠組み。
修正されていないパズルの精度がほぼ完璧であるにもかかわらず、モデルは摂動されたパズルで人間を著しく過小評価し、幻想的リコールと過度な実験の両方を見せた。
LLMは文脈的手がかりのシフト時に再推論に失敗することが多く、言語流布と論理的理解のギャップを浮き彫りにする。
関連論文リスト
- Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features [1.0742675209112622]
可変複素制約満足論理問題として,o1-mini,o3-mini,DeepSeek-R1,Claude 3.7 Sonnet,Gemini 2.5 Pro Preview,Grok 3 Mini Betaをグラフカラー化でテストする。
誤り率比較とCoT/説明テキスト解析の両方から、RLLMはプロンプトに指定されていないグラフエッジを幻覚させる傾向にあることを示す。
論文 参考訳(メタデータ) (2025-05-17T21:55:12Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter? [36.14795256060537]
複雑度が異なる274のグリッドベースパズルからなる評価データセットであるGridPuzzleを開発した。
第2に, GPT-4, Claude-3, Gemini, Mistral, Llama-2 など LLM の推論鎖を手動で解析した新しい誤り分類法を提案する。
第3に、大規模主観的評価のためのLLMベースのフレームワーク(すなわち、誤りを特定する)と客観的な指標であるPuzzleEvalを開発し、推論連鎖の正しさを評価する。
論文 参考訳(メタデータ) (2024-07-20T07:43:07Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。