論文の概要: Training Introspective Behavior: Fine-Tuning Induces Reliable Internal State Detection in a 7B Model
- arxiv url: http://arxiv.org/abs/2511.21399v1
- Date: Wed, 26 Nov 2025 13:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.123747
- Title: Training Introspective Behavior: Fine-Tuning Induces Reliable Internal State Detection in a 7B Model
- Title(参考訳): イントロスペクティブトレーニング:7Bモデルにおけるファインチューニングによる信頼性のある内部状態検出
- Authors: Joshua Fonseca Rivera,
- Abstract要約: Lindsey (2025) は4つの実験を通して言語モデルにおける内観的認識を調査している。
われわれはこれらの実験の最初の段階、つまり注入された「思考」の自己報告に焦点を当てている。
イントロスペクティブ・ビヘイビアの少なくとも1つのコンポーネントが直接誘導可能であることを示し、組込みAI透過性への経路を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lindsey (2025) investigates introspective awareness in language models through four experiments, finding that models can sometimes detect and identify injected activation patterns -- but unreliably (~20% success in the best model). We focus on the first of these experiments -- self-report of injected "thoughts" -- and ask whether this capability can be directly trained rather than waiting for emergence. Through fine-tuning on transient single-token injections, we transform a 7B parameter model from near-complete failure (0.4% accuracy, 6.7% false positive rate) to reliable detection (85% accuracy on held-out concepts at α=40, 0% false positives). Our model detects fleeting "thoughts" injected at a single token position, retains that information, and reports the semantic content across subsequent generation steps. On this task, our trained model satisfies three of Lindsey's criteria: accuracy (correct identification), grounding (0/60 false positives), and internality (detection precedes verbalization). Generalization to unseen concept vectors (7.5pp gap) demonstrates the model learns a transferable skill rather than memorizing specific vectors, though this does not establish metacognitive representation in Lindsey's sense. These results address an open question raised by Lindsey: whether "training for introspection would help eliminate cross-model differences." We show that at least one component of introspective behavior can be directly induced, offering a pathway to built-in AI transparency.
- Abstract(参考訳): Lindsey氏(2025年)は4つの実験を通じて、言語モデルの内省的認識を調査し、時にモデルが注入されたアクティベーションパターンを検知し、識別できることを発見した。
過渡単発注入の微調整により、7Bパラメータモデルをほぼ完全な故障(0.4%の精度、6.7%の偽陽性率)から信頼できる検出(α=40,0%の偽陽性)に変換する。
我々のモデルは、単一のトークン位置で注入された「考え」を検知し、その情報を保持し、その後の生成ステップ間でセマンティックコンテンツを報告する。
このタスクでは、トレーニングされたモデルが、精度(正確な識別)、グラウンド化(0/60偽陽性)、内部性(検出は動詞化に先立つ)の3つの基準を満たす。
目に見えない概念ベクトルへの一般化(7.5ppギャップ)は、モデルが特定のベクトルを記憶するよりも伝達可能なスキルを学ぶことを示すが、これはリンゼイの意味でメタ認知的表現を確立するものではない。
これらの結果はリンゼイが提起したオープンな疑問に対処し、「イントロスペクションのトレーニングが、モデル間の差異を排除するのに役立つかどうか」である。
イントロスペクティブ・ビヘイビアの少なくとも1つのコンポーネントが直接誘導可能であることを示し、組込みAI透過性への経路を提供する。
関連論文リスト
- Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z) - No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes [2.6550928535945872]
モデルの今後の回答が正しいかどうかを予測するために線形プローブを訓練する。
3つのオープンソースモデルファミリにわたって、一般的なトリビア問題に基づいて訓練されたこの「緊急時の正当性方向」の予測は、分布の成功を予測する。
I don't know"と応答するモデルでは、プローブのスコアと強く相関し、同じ方向が信頼を捉えることを示している。
論文 参考訳(メタデータ) (2025-09-12T18:09:55Z) - Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。