論文の概要: Mirage of Mastery: Memorization Tricks LLMs into Artificially Inflated Self-Knowledge
- arxiv url: http://arxiv.org/abs/2506.18998v1
- Date: Mon, 23 Jun 2025 18:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.328106
- Title: Mirage of Mastery: Memorization Tricks LLMs into Artificially Inflated Self-Knowledge
- Title(参考訳): 熟達の鏡: LLMを人工的に膨らませた自己知識に変えるメモ化
- Authors: Sahil Kale, Vijaykant Nadadur,
- Abstract要約: 既存の研究は、LLMにおける記憶障害と自己認知障害を別の問題として扱う。
我々は,LLMが学習データから推論パターンを真に学習するかどうかを確認するために,新しいフレームワークを利用する。
LLMは記憶された解から自信を引き出して高い自己知識を推測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When artificial intelligence mistakes memorization for intelligence, it creates a dangerous mirage of reasoning. Existing studies treat memorization and self-knowledge deficits in LLMs as separate issues and do not recognize an intertwining link that degrades the trustworthiness of LLM responses. In our study, we utilize a novel framework to ascertain if LLMs genuinely learn reasoning patterns from training data or merely memorize them to assume competence across problems of similar complexity focused on STEM domains. Our analysis shows a noteworthy problem in generalization: LLMs draw confidence from memorized solutions to infer a higher self-knowledge about their reasoning ability, which manifests as an over 45% inconsistency in feasibility assessments when faced with self-validated, logically coherent task perturbations. This effect is most pronounced in science and medicine domains, which tend to have maximal standardized jargon and problems, further confirming our approach. Significant wavering within the self-knowledge of LLMs also shows flaws in current architectures and training patterns, highlighting the need for techniques that ensure a balanced, consistent stance on models' perceptions of their own knowledge for maximum AI explainability and trustworthiness. Our code and results are available publicly at https://github.com/knowledge-verse-ai/LLM-Memorization_SK_Eval-.
- Abstract(参考訳): 人工知能がインテリジェンスの記憶を間違えると、それは推論の危険なミラージュを生み出します。
既存の研究は、LLMの記憶障害と自己認知障害を別個の問題として扱い、LLM応答の信頼性を低下させる相互接続を認識していない。
本研究では,LLMが学習データから推論パターンを真に学習しているか,あるいは単に記憶して,STEMドメインに焦点をあてた類似の複雑性の問題にまたがる能力を持つかを確認するために,新しい枠組みを利用する。
LLMは、自己検証された、論理的に一貫性のあるタスク摂動に直面した場合に、フィージビリティアセスメントにおいて45%以上の矛盾として現れる推論能力について、より高い自己知識を推測するために記憶されたソリューションから自信を引き出す。
この効果は、最も顕著な科学と医学の領域であり、最大標準のジャーゴンと問題を持つ傾向があり、我々のアプローチをさらに裏付ける。
LLMの自己認識における重要な波は、現在のアーキテクチャやトレーニングパターンの欠陥も示しており、AIの説明可能性と信頼性を最大化するためのモデル自身の知識に対する、バランスのとれた一貫性のあるスタンスを保証する技術の必要性を強調している。
私たちのコードと結果はhttps://github.com/knowledge-verse-ai/LLM-Memorization_SK_Eval-で公開されています。
関連論文リスト
- Line of Duty: Evaluating LLM Self-Knowledge via Consistency in Feasibility Boundaries [0.0]
本研究は,新たな手法を用いて,異なるタイプのLDM自己知識に関する本質的な洞察を得ることを目的とする。
GPT-4oやMistral Largeのようなフロンティアモデルでさえ、その80%以上の能力を確信していないことが分かりました。
論文 参考訳(メタデータ) (2025-03-14T10:07:07Z) - Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。
幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。
本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文 参考訳(メタデータ) (2024-10-10T05:43:07Z) - Unveiling Factual Recall Behaviors of Large Language Models through Knowledge Neurons [13.266817091775042]
本研究では,Large Language Models (LLMs) が推論タスクに直面すると,その内部知識のリポジトリを積極的にリコールするか,回収するかを検討する。
我々は,LLMが特定の状況下での批判的事実関連を活用できないことを明らかにした。
複雑な推論タスクに対処する強力な手法であるChain-of-Thought(CoT)プロンプトの効果を評価する。
論文 参考訳(メタデータ) (2024-08-06T15:07:08Z) - Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。