論文の概要: Mechanisms of Introspective Awareness
- arxiv url: http://arxiv.org/abs/2603.21396v1
- Date: Sun, 22 Mar 2026 20:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.397521
- Title: Mechanisms of Introspective Awareness
- Title(参考訳): イントロスペクティブ・アウェアネスのメカニズム
- Authors: Uzay Macar, Li Yang, Atticus Wang, Peter Wallich, Emmanuel Ameisen, Jack Lindsey,
- Abstract要約: 最近の研究は、LCMが残留ストリームにステアリングベクターが注入されたときに検出し、注入された概念を特定できることを示している。
しかし、この能力を支えるメカニズムはどのようなもので、本物の内省回路を反映しているか、あるいはより浅い認識を反映しているのか?
本稿では,これらの疑問をオープンソースモデルで調査し,主要な3つの知見を定めている。
- 参考スコア(独自算出の注目度): 4.6752132340946835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work shows that LLMs can sometimes detect when steering vectors are injected into their residual stream and identify the injected concept, a phenomenon cited as evidence of "introspective awareness." But what mechanisms underlie this capability, and do they reflect genuine introspective circuitry or more shallow heuristics? We investigate these questions in open-source models and establish three main findings. First, introspection is behaviorally robust: detection achieves moderate true positive rates with 0% false positives across diverse prompts. We also find this capability emerges specifically from post-training rather than pretraining. Second, introspection is not reducible to a single linear confound: anomaly detection relies on distributed MLP computation across multiple directions, implemented by evidence carrier and gate features. Third, models possess greater introspective capability than is elicited by default: ablating refusal directions improves detection by 53pp and a trained steering vector by 75pp. Overall, our results suggest that introspective awareness is behaviorally robust, grounded in nontrivial internal anomaly detection, and likely could be substantially improved in future models. Code: https://github.com/safety-research/introspection-mechanisms.
- Abstract(参考訳): 最近の研究は、LCMが残留流にステアリングベクターを注入した時に検出し、注入された概念を特定できることを示しており、これは「内省的認識」の証拠として言及されている。
しかし、この能力を実現するメカニズムはどのようなもので、真に内省的な回路やより浅いヒューリスティックを反映しているのか?
本稿では,これらの疑問をオープンソースモデルで調査し,主要な3つの知見を定めている。
まず、イントロスペクションは行動的に堅牢であり、検出は様々なプロンプトに対して0%の偽陽性で適度な真の正の率を達成する。
また、この機能は事前トレーニングではなく、ポストトレーニングによって特殊に現れることもわかりました。
異常検出は複数の方向にわたる分散MLP計算に依存し、エビデンスキャリアとゲート特徴によって実装される。
第3に、モデルはデフォルトによって引き起こされるよりもイントロスペクティブ能力が高い: 拒絶方向の非難は53pp、訓練されたステアリングベクトルは75ppで検出を改善する。
全体として,内省的意識は行動に頑健であり,非自明な内部異常検出を基礎としており,将来のモデルでは大幅に改善される可能性が示唆された。
コード:https://github.com/safety-research/introspection-mechanisms。
関連論文リスト
- Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - Your Vision-Language-Action Model Already Has Attention Heads For Path Deviation Detection [14.088116748512428]
VLA(Vision-Language-Action)モデルは、ナビゲーションタスクにおけるセマンティックアクションを予測する強力な可能性を示している。
それらは基本的に、軌跡のずれにつながる視覚的な幻覚によって妨げられている。
凍結VLAモデル内の注意点数を監視することで,余分な計算オーバーヘッドを伴わずに経路偏差を正確に検出できることを示す。
論文 参考訳(メタデータ) (2026-03-14T06:26:11Z) - Backdoor Directions in Vision Transformers [56.382912038371046]
本稿では,視覚変換器(ViT)におけるバックドアアタックの表現方法について検討する。
我々は、トリガーの内部表現に対応するモデルのアクティベーションにおいて、特定のトリガー方向'を識別する。
この方向を診断ツールとして使用して、バックドア機能が層間でどのように処理されるかを追跡する。
論文 参考訳(メタデータ) (2026-03-11T14:13:48Z) - Dissociating Direct Access from Inference in AI Introspection [11.31435294855236]
最近の研究によると、AIモデルはイントロスペクション可能である。
これらのモデルが2つの分離可能なメカニズムによって注入された表現を検出することを示す。
この内容に依存しない内観のメカニズムは、哲学や心理学における主要な理論と一致している。
論文 参考訳(メタデータ) (2026-03-05T17:39:37Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - When the Coffee Feature Activates on Coffins: An Analysis of Feature Extraction and Steering for Mechanistic Interpretability [0.0]
機械的解釈可能性に関する人類学の最近の研究は、大規模言語モデルを理解し制御することを主張している。
我々は、Llama 3.1のオープンソースSAEで主要な結果を複製することで、これらの主張の最初のストレステストを行う。
機能ステアリングは, 層選択, ステアリングサイズ, コンテキストに敏感で, かなり脆弱であることがわかった。
論文 参考訳(メタデータ) (2026-01-06T14:29:51Z) - Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。