論文の概要: Can LLMs Introspect? A Reality Check
- arxiv url: http://arxiv.org/abs/2605.26242v1
- Date: Mon, 25 May 2026 18:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.306058
- Title: Can LLMs Introspect? A Reality Check
- Title(参考訳): LLMのイントロスペクションは可能か?
- Authors: Shashwat Singh, Tal Linzen, Shauli Ravfogel,
- Abstract要約: 我々は、行動証拠だけでは、強い内省的主張を確立するには本質的に不十分であると主張している。
最近導入された2つの評価パラダイムを再検討する。
最初のパラダイムでは、モデルが内部状態が改ざんされているかどうかを検出することが期待されている。
モデルでは、内部状態に対するそのような介入と入力の操作を確実に区別することはできない。
- 参考スコア(独自算出の注目度): 29.059698549368207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can large language models detect and report their own internal states? A number of studies have argued that the answer to this question is yes. We argue, based on lessons from human metacognition research, that this conclusion may be premature: to be convinced of this conclusion we need to distinguish genuine introspection from pattern matching based on surface-level cues. Furthermore, we argue that behavioral evidence alone is inherently insufficient to establish strong introspective claims. We re-examine two recently introduced evaluation paradigms in light of this consideration. In the first paradigm, models are expected to detect whether their internal states have been tampered with. We find that models cannot reliably distinguish such interventions on their internal states from manipulations of the input, suggesting that their success in the original studies reflects their ability to detect anomalies more generally, as opposed to interventions on their internal states in particular. In the second paradigm we examine, models are tasked with predicting labels derived from their own hidden states. Here, we find that classifiers that only have access to the input achieve equivalent performance to the model's own in-context predictions, indicating that the original results do not conclusively demonstrate that the model has privileged access to its internal representations. We further introduce a relabeled control setting, where models cannot rely on the semantics of the task to solve it, and instead must rely on the internal representation; models perform closer to chance on this better-controlled version of the task. Taken together, these results indicate that current evidence is insufficient to establish that LLMs display metacognitive monitoring.
- Abstract(参考訳): 大きな言語モデルは内部状態を検出して報告できるのか?
多くの研究がこの問題に対する答えはイエスであると主張している。
人間のメタ認知研究の教訓に基づき、この結論は時期尚早であり、この結論を確信するためには、表面レベルの手がかりに基づくパターンマッチングと真のイントロスペクションを区別する必要がある。
さらに、行動証拠だけでは、強い内省的主張を確立するには本質的に不十分であると主張する。
この観点から最近導入された2つの評価パラダイムを再検討する。
最初のパラダイムでは、モデルが内部状態が改ざんされているかどうかを検出することが期待されている。
モデルでは、内部状態の介入と入力の操作を確実に区別することができず、元の研究での成功は、特に内部状態の介入とは対照的に、より一般的に異常を検出する能力の反映を示唆している。
第2のパラダイムでは、モデルが隠れた状態から派生したラベルを予測する。
ここでは、入力へのアクセスのみを有する分類器が、モデル自身のコンテキスト内予測に等価な性能を達成し、元の結果がそのモデルの内部表現への特権的アクセスを決定的に証明していないことを示す。
さらに、モデルがそれを解決するためにタスクのセマンティクスに頼ることができず、代わりに内部表現に頼らなければならない。
これらの結果は,LLMがメタ認知的モニタリングを示すことを示すには,現在の証拠が不十分であることが示唆された。
関連論文リスト
- Causality is Key for Interpretability Claims to Generalise [35.833847356014154]
大規模言語モデル(LLM)の解釈可能性の研究は、モデル行動に関する重要な洞察をもたらした。
繰り返し発生する落とし穴: 一般化しない発見と、証拠を突破する因果解釈。
パールの因果的階層は、解釈可能性の研究が正当化できることを明確にする。
論文 参考訳(メタデータ) (2026-02-18T18:45:04Z) - Emergently Misaligned Language Models Show Behavioral Self-Awareness That Shifts With Subsequent Realignment [0.3823356975862005]
GPT-4.1モデルは、創発的ミスアライメントを誘導し、逆転させることで知られているデータセットを逐次的に微調整する。
以上の結果から,不整合モデルがベースモデルや再整合モデルに比べて有意に有害であることが示唆された。
以上の結果から,行動自己認識はモデルの実際のアライメント状態を追跡することが示唆された。
論文 参考訳(メタデータ) (2026-02-16T14:29:46Z) - Emergent Introspective Awareness in Large Language Models [2.2458442204933]
大規模言語モデルが内部状態をイントロスペクションできるかどうかを検討する。
モデルが特定のシナリオにおいて、注入された概念の存在に気付き、それらを正確に識別できることが分かりました。
最も有能なモデルであるクロード・オプス4と4.1は、一般に最も内省的な認識を示す。
論文 参考訳(メタデータ) (2026-01-05T06:47:41Z) - Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。
モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文 参考訳(メタデータ) (2025-05-30T02:39:37Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models [9.318796743761224]
言語モデル(LM)を評価するための心の理論(ToM)タスクへの関心が高まりつつあるが、LMが自己や他者の精神状態を内部的にどのように表現しているかについては、ほとんど分かっていない。
本研究は、異なるスケールのモデル、トレーニングレギュラー、プロンプトを探索することで、LMにおける信念表現を初めて体系的に研究するものである。
我々の実験は、モデルサイズと微調整の両方が、他者の信念に対するLMの内部表現を大幅に改善する証拠を提供する。
論文 参考訳(メタデータ) (2024-06-25T12:51:06Z) - Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。
予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。
2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。