論文の概要: Beyond Memorization: Distinguishing between Reductive and Epistemic Reasoning in LLMs using Classic Logic Puzzles
- arxiv url: http://arxiv.org/abs/2603.21350v1
- Date: Sun, 22 Mar 2026 18:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.372783
- Title: Beyond Memorization: Distinguishing between Reductive and Epistemic Reasoning in LLMs using Classic Logic Puzzles
- Title(参考訳): 記憶の超越:古典的論理パズルを用いたLDMにおける還元的・てんかん的推論の区別
- Authors: Adi Gabay, Gabriel Stanovsky, Liat Peterfreund,
- Abstract要約: 記憶化は、新しいインスタンスが既知の問題にマップされる特別な還元の場合として理解される。
いくつかの大きなモデルは縮小によって成功するが、他のモデルは早期に失敗し、全てのモデルは疫学的な推論が必要になったときに苦労する。
- 参考スコア(独自算出の注目度): 14.690035415630433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Epistemic reasoning requires agents to infer the state of the world from partial observations and information about other agents' knowledge. Prior work evaluating LLMs on canonical epistemic puzzles interpreted their behavior through a dichotomy between epistemic reasoning and brittle memorization. We argue that this framing is incomplete: in recent models, memorization is better understood as a special case of reduction, where a new instance is mapped onto a known problem. Instead, we introduce a reduction ladder, a sequence of modifications that progressively move instances away from a canonical epistemic puzzle, making reduction increasingly difficult while preserving the underlying logic. We find that while some large models succeed via reduction, other models fail early, and all models struggle once epistemic reasoning is required.
- Abstract(参考訳): 疫学的推論では、エージェントは他のエージェントの知識に関する部分的な観察と情報から世界の状態を推測する必要がある。
先行研究は, 先天的推論と脆性記憶の二分法により, それらの挙動を解釈した。
最近のモデルでは、記憶化は、新しいインスタンスが既知の問題にマップされる特別な還元の場合として理解されている。
代わりに、レダクション・ラグ(Reduce ladder)を導入し、レダクション・ラグ(Reダクション・ラグ)を導入し、レダクション・ラグ(リダクション・ラグ)を標準のエピステマティック・パズルから徐々に遠ざけ、基礎となるロジックを保ちながら、リダクション・ラグをますます難しくする。
いくつかの大きなモデルは縮小によって成功するが、他のモデルは早期に失敗し、全てのモデルは疫学的な推論が必要になったときに苦労する。
関連論文リスト
- PHANTOM RECALL: When Familiar Puzzles Fool Smart Models [29.172155264798466]
GPT、Gemini、Claudeといった大規模言語モデル(LLM)は古典論理パズルの解法に長けていることが多い。
最近の証拠は、これらのモデルは第一原理から推論するのではなく、記憶されたテンプレートにしばしば依存していることを示している。
パズルの精度がほぼ完璧であるにもかかわらず、モデルは修正されていないものに対して人間を著しく過小評価している。
論文 参考訳(メタデータ) (2025-10-13T18:09:50Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Temporal Knowledge Question Answering via Abstract Reasoning Induction [32.08799860090592]
本研究では,Large Language Models(LLMs)における時間的知識推論の高度化という課題に対処する。
本稿では,時間的推論を知識非依存と知識に基づく2つのフェーズに分割する抽象推論誘導(ARI)フレームワークを提案する。
提案手法は,2つの時間的QAデータセットに対して29.7%と9.27%の相対的な向上を達成している。
論文 参考訳(メタデータ) (2023-11-15T17:46:39Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。