論文の概要: Latent Introspection: Models Can Detect Prior Concept Injections
- arxiv url: http://arxiv.org/abs/2602.20031v1
- Date: Mon, 23 Feb 2026 16:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.907514
- Title: Latent Introspection: Models Can Detect Prior Concept Injections
- Title(参考訳): 潜在イントロスペクション:モデルが事前概念注入を検出できる
- Authors: Theia Pearson-Vogel, Martin Vanek, Raymond Douglas, Jan Kulveit,
- Abstract要約: 我々はQwen 32Bモデルでイントロスペクションの潜在能力を明らかにする。
このモデルは、いつ概念が初期の文脈に注入されたかを検出し、どの概念が注入されたかを特定することができる。
- 参考スコア(独自算出の注目度): 0.11405605998490648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We uncover a latent capacity for introspection in a Qwen 32B model, demonstrating that the model can detect when concepts have been injected into its earlier context and identify which concept was injected. While the model denies injection in sampled outputs, logit lens analysis reveals clear detection signals in the residual stream, which are attenuated in the final layers. Furthermore, prompting the model with accurate information about AI introspection mechanisms can dramatically strengthen this effect: the sensitivity to injection increases massively (0.3% -> 39.2%) with only a 0.6% increase in false positives. Also, mutual information between nine injected and recovered concepts rises from 0.62 bits to 1.05 bits, ruling out generic noise explanations. Our results demonstrate models can have a surprising capacity for introspection and steering awareness that is easy to overlook, with consequences for latent reasoning and safety.
- Abstract(参考訳): 我々はQwen 32Bモデルでイントロスペクションの潜在能力を明らかにし、このモデルが初期の文脈にどの概念が注入されたかを検知し、どの概念が注入されたかを特定することを実証した。
モデルがサンプル出力の注入を否定する一方で、ロジットレンズ解析は、最終層で減衰する残留ストリームにおける透明な検出信号を明らかにする。
さらに、AIイントロスペクション機構に関する正確な情報をモデルに入力することで、この効果を劇的に強化することができる: 注入に対する感受性は、偽陽性が0.6%しか増加しない(0.3% -> 39.2%)。
また、9つの注入された概念と回収された概念の相互情報は0.62ビットから1.05ビットに増加し、一般的なノイズ説明を除外する。
以上の結果から,モデルが見落としやすいイントロスペクションとステアリング意識に驚くべき能力を持つことが示唆された。
関連論文リスト
- Training Introspective Behavior: Fine-Tuning Induces Reliable Internal State Detection in a 7B Model [0.0]
Lindsey (2025) は4つの実験を通して言語モデルにおける内観的認識を調査している。
われわれはこれらの実験の最初の段階、つまり注入された「思考」の自己報告に焦点を当てている。
イントロスペクティブ・ビヘイビアの少なくとも1つのコンポーネントが直接誘導可能であることを示し、組込みAI透過性への経路を提供する。
論文 参考訳(メタデータ) (2025-11-26T13:49:43Z) - SegFormer Fine-Tuning with Dropout: Advancing Hair Artifact Removal in Skin Lesion Analysis [0.0]
皮膚内視鏡像の毛細血管は皮膚病変を正確に解析する上で重要な課題である。
この研究は、正確にヘアマスクのセグメンテーションを実現するために、ドロップアウト正規化を付加した微調整のSegFormerモデルを導入する。
論文 参考訳(メタデータ) (2025-09-02T10:06:26Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - How Do Diffusion Models Improve Adversarial Robustness? [3.729242965449096]
本研究では,拡散モデルによる対向ロバスト性の改善について検討する。
精製された画像は拡散モデルの内部ランダム性に大きく影響されていることがわかった。
本研究は,拡散型精製のメカニズムに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-05-28T20:19:21Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Is It Possible to Backdoor Face Forgery Detection with Natural Triggers? [20.54640502001717]
顔偽造検出モデルに対する新たな分析・合成バックドアアタックを提案する。
本手法は高い攻撃成功率(99%以上)を達成し,低毒性率(3%未満)のモデル精度低下(0.2%以下)を生じさせる。
論文 参考訳(メタデータ) (2023-12-31T07:16:10Z) - Interpretable (not just posthoc-explainable) medical claims modeling for
discharge placement to prevent avoidable all-cause readmissions or death [2.198760145670348]
我々は回帰係数の変動を表現するために本質的に解釈可能な多レベルベイズフレームワークを開発した。
我々は,この枠組みを用いて,医療クレームを用いた生存モデルを定式化し,入院と死亡を予測した。
2009-2011年の入院エピソードに基づいて、2008年と2011年の医療受給者の5%のサンプルを用いてモデルを訓練し、2012年のエピソードでモデルを検証した。
論文 参考訳(メタデータ) (2022-08-28T06:19:32Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z) - Neural Network Virtual Sensors for Fuel Injection Quantities with
Provable Performance Specifications [71.1911136637719]
証明可能な保証が、他の現実世界の設定にどのように自然に適用できるかを示す。
本研究では, 燃料噴射量を一定範囲で最大化するために, 特定の間隔の燃料噴射量を目標にする方法を示す。
論文 参考訳(メタデータ) (2020-06-30T23:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。