論文の概要: Minimal and Mechanistic Conditions for Behavioral Self-Awareness in LLMs
- arxiv url: http://arxiv.org/abs/2511.04875v1
- Date: Thu, 06 Nov 2025 23:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.620069
- Title: Minimal and Mechanistic Conditions for Behavioral Self-Awareness in LLMs
- Title(参考訳): LLMにおける行動自己認識の最小条件と機械的条件
- Authors: Matthew Bozoukov, Matthew Nguyen, Shubkarman Singh, Bart Bussmann, Patrick Leask,
- Abstract要約: 自己認識(Self-Awareness)とは、明示的な監督なしに学習した振る舞いを正確に記述または予測する能力である。
この能力は、例えばモデルが評価中に真の能力をよりよく隠せるように、安全上の懸念を提起する。
自己認識は、容易に誘導・変調できる、ドメイン固有で線形な特徴として現れることを示す。
- 参考スコア(独自算出の注目度): 3.987170155568663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have revealed that LLMs can exhibit behavioral self-awareness: the ability to accurately describe or predict their own learned behaviors without explicit supervision. This capability raises safety concerns as it may, for example, allow models to better conceal their true abilities during evaluation. We attempt to characterize the minimal conditions under which such self-awareness emerges, and the mechanistic processes through which it manifests. Through controlled finetuning experiments on instruction-tuned LLMs with low-rank adapters (LoRA), we find: (1) that self-awareness can be reliably induced using a single rank-1 LoRA adapter; (2) that the learned self-aware behavior can be largely captured by a single steering vector in activation space, recovering nearly all of the fine-tune's behavioral effect; and (3) that self-awareness is non-universal and domain-localized, with independent representations across tasks. Together, these findings suggest that behavioral self-awareness emerges as a domain-specific, linear feature that can be easily induced and modulated.
- Abstract(参考訳): 近年の研究では、LLMは行動自覚を示すことができることが明らかになっている。
この能力は、例えばモデルが評価中に真の能力をよりよく隠せるように、安全上の懸念を提起する。
我々は、そのような自己認識が出現する最小条件と、それを示す機械的過程を特徴づけようとする。
低ランクアダプター (LoRA) を用いた命令調整 LLM の微調整実験により,(1) 単一ランク-1 LoRA アダプタを用いて自己認識を確実に誘導できること,(2) 学習された自己認識行動は,活性化空間における単一ステアリングベクトルによって主に捉えられること,(3) 細管の挙動効果のほぼ全てを回復すること,(3) 自己認識は非ユニバーサルかつドメインローカライズドであり,タスク間の独立表現を有すること,などが判明した。
これらの知見は, 行動自己認識が, 容易に誘導・変調できる, ドメイン固有の線形特徴として現れることを示唆している。
関連論文リスト
- On the Convergence of Moral Self-Correction in Large Language Models [26.724972162483855]
大きな言語モデル(LLM)は、そのように指示されたときの応答を改善することができる。
LLMは、内在的な自己補正と呼ばれるプロセスである応答品質を改善するために、内部知識に頼らなければならない。
我々は,多ラウンド相互作用による性能収束という,本質的な自己補正のキーとなる特徴を明らかにする。
論文 参考訳(メタデータ) (2025-10-08T17:46:27Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。
これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。
本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文 参考訳(メタデータ) (2025-01-27T21:26:37Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。