論文の概要: Emergent Introspective Awareness in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.01828v1
- Date: Mon, 05 Jan 2026 06:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.821564
- Title: Emergent Introspective Awareness in Large Language Models
- Title(参考訳): 大規模言語モデルにおける創発的内省的認識
- Authors: Jack Lindsey,
- Abstract要約: 大規模言語モデルが内部状態をイントロスペクションできるかどうかを検討する。
モデルが特定のシナリオにおいて、注入された概念の存在に気付き、それらを正確に識別できることが分かりました。
最も有能なモデルであるクロード・オプス4と4.1は、一般に最も内省的な認識を示す。
- 参考スコア(独自算出の注目度): 2.2458442204933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether large language models can introspect on their internal states. It is difficult to answer this question through conversation alone, as genuine introspection cannot be distinguished from confabulations. Here, we address this challenge by injecting representations of known concepts into a model's activations, and measuring the influence of these manipulations on the model's self-reported states. We find that models can, in certain scenarios, notice the presence of injected concepts and accurately identify them. Models demonstrate some ability to recall prior internal representations and distinguish them from raw text inputs. Strikingly, we find that some models can use their ability to recall prior intentions in order to distinguish their own outputs from artificial prefills. In all these experiments, Claude Opus 4 and 4.1, the most capable models we tested, generally demonstrate the greatest introspective awareness; however, trends across models are complex and sensitive to post-training strategies. Finally, we explore whether models can explicitly control their internal representations, finding that models can modulate their activations when instructed or incentivized to "think about" a concept. Overall, our results indicate that current language models possess some functional introspective awareness of their own internal states. We stress that in today's models, this capacity is highly unreliable and context-dependent; however, it may continue to develop with further improvements to model capabilities.
- Abstract(参考訳): 大規模言語モデルが内部状態をイントロスペクションできるかどうかを検討する。
真面目な内観は会話と区別できないので、会話だけでこの質問に答えることは困難である。
ここでは、既知の概念の表現をモデルのアクティベーションに注入し、これらの操作がモデルの自己報告状態に与える影響を測定することで、この課題に対処する。
モデルが特定のシナリオにおいて、注入された概念の存在に気付き、それらを正確に識別できることが分かりました。
モデルは、事前の内部表現を思い出し、それらを生のテキスト入力と区別する能力を示す。
興味深いことに、一部のモデルは、自身の出力を人工プレフィルと区別するために、事前の意図を思い出す能力を利用することができる。
これらすべての実験において、私たちがテストした最も有能なモデルであるClaude Opus 4と4.1は、一般的に最も内省的認識を示すものだが、モデル間のトレンドは複雑で、後トレーニング戦略に敏感である。
最後に、モデルが内部表現を明示的に制御できるかどうかを検討し、モデルが概念を"考える"ように指示されたり、インセンティブを与えたりすることで、アクティベーションを調節できることを示した。
以上の結果から,現在の言語モデルは内部状態に対する機能的イントロスペクティブな認識を持っていることが示唆された。
今日のモデルでは、このキャパシティは信頼性が高く、コンテキストに依存しています。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - From Imitation to Introspection: Probing Self-Consciousness in Language Models [8.357696451703058]
自己意識は自己の存在と思考の内省である。
本研究は,言語モデルに対する自己意識の実践的定義を示す。
論文 参考訳(メタデータ) (2024-10-24T15:08:17Z) - Measuring Agreeableness Bias in Multimodal Models [0.3529736140137004]
本稿では,複数モーダル言語モデルにおける画像に対する事前マーク付きオプションがモデル応答に影響を及ぼす現象について検討する。
複数選択質問の画像付きモデルを提示し、まず最初に正解し、次に予めマークされたオプションで同じモデルをバージョンに公開する。
この結果から,中立条件下での回答に矛盾する場合でも,事前マーク付きオプションに対するモデルの反応が著しく変化していることが判明した。
論文 参考訳(メタデータ) (2024-08-17T06:25:36Z) - Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models [9.318796743761224]
言語モデル(LM)を評価するための心の理論(ToM)タスクへの関心が高まりつつあるが、LMが自己や他者の精神状態を内部的にどのように表現しているかについては、ほとんど分かっていない。
本研究は、異なるスケールのモデル、トレーニングレギュラー、プロンプトを探索することで、LMにおける信念表現を初めて体系的に研究するものである。
我々の実験は、モデルサイズと微調整の両方が、他者の信念に対するLMの内部表現を大幅に改善する証拠を提供する。
論文 参考訳(メタデータ) (2024-06-25T12:51:06Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。