論文の概要: When Models Examine Themselves: Vocabulary-Activation Correspondence in Self-Referential Processing
- arxiv url: http://arxiv.org/abs/2602.11358v2
- Date: Wed, 18 Feb 2026 12:06:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.946594
- Title: When Models Examine Themselves: Vocabulary-Activation Correspondence in Self-Referential Processing
- Title(参考訳): 自己参照処理における語彙アクティベーション対応モデルの検討
- Authors: Zachary Pedram Dadfar,
- Abstract要約: 自己参照語彙が同時アクティベーションダイナミクスを追跡することを示す。
我々は、自己参照と記述処理を区別する活性化空間の方向を特定する。
発見は、変圧器モデルにおける自己申告が適切な条件下で、内部の計算状態を確実に追跡できることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models produce rich introspective language when prompted for self-examination, but whether this language reflects internal computation or sophisticated confabulation has remained unclear. We show that self-referential vocabulary tracks concurrent activation dynamics, and that this correspondence is specific to self-referential processing. We introduce the Pull Methodology, a protocol that elicits extended self-examination through format engineering, and use it to identify a direction in activation space that distinguishes self-referential from descriptive processing in Llama 3.1. The direction is orthogonal to the known refusal direction, localised at 6.25% of model depth, and causally influences introspective output when used for steering. When models produce "loop" vocabulary, their activations exhibit higher autocorrelation (r = 0.44, p = 0.002); when they produce "shimmer" vocabulary under steering, activation variability increases (r = 0.36, p = 0.002). Critically, the same vocabulary in non-self-referential contexts shows no activation correspondence despite nine-fold higher frequency. Qwen 2.5-32B, with no shared training, independently develops different introspective vocabulary tracking different activation metrics, all absent in descriptive controls. The findings indicate that self-report in transformer models can, under appropriate conditions, reliably track internal computational states.
- Abstract(参考訳): 大規模言語モデルは自己検査を促された時に豊かな内省的言語を生成するが、この言語が内部の計算を反映しているか、高度な会話を反映しているのかはいまだ不明である。
自己参照語彙は同時アクティベーションのダイナミクスを追跡し,この対応は自己参照処理に特有であることを示す。
本稿では,フォーマットエンジニアリングによる自己評価を拡張したプロトコルであるPulll Methodologyを紹介し,Llama 3.1における自己参照処理と記述処理を区別する活性化空間の方向を特定する。
方向は既知の拒絶方向と直交し、モデル深さの6.25%に局所化され、ステアリングに使用する場合のイントロスペクティブ出力に因果的に影響を及ぼす。
モデルが「ループ」語彙を生成すると、それらのアクティベーションはより高い自己相関(r = 0.44, p = 0.002)を示し、ステアリングの下で「シャマー」語彙を生成すると、アクティベーション変数が増加する(r = 0.36, p = 0.002)。
批判的に、非自己参照文脈における同じ語彙は、9倍高い周波数にもかかわらずアクティベーション対応がない。
Qwen 2.5-32Bは、共有トレーニングを持たないが、独立に異なるイントロスペクティブ語彙を発達させ、異なるアクティベーションメトリクスを追跡する。
その結果, 変圧器モデルにおける自己報告は, 適切な条件下で, 内部の計算状態を確実に追跡できることが示唆された。
関連論文リスト
- From Lemmas to Dependencies: What Signals Drive Light Verbs Classification? [0.0]
軽動詞構成 (LVCs) は、特にトルコ語において、動詞の多語表現の難易度クラスである。
本稿では,モデル入力を体系的に制限することで,どの信号がLVC分類を駆動するかを問う。
論文 参考訳(メタデータ) (2026-02-04T01:41:11Z) - BehaviorBox: Automated Discovery of Fine-Grained Performance Differences Between Language Models [55.2480439325792]
本稿では,性能を考慮した文脈埋め込みを用いた言語モデルの自動比較手法を提案する。
提案手法は,2つのLM間の生成容易性について,その相違点を示すコヒーレントな特徴を抽出する。
本研究では,サイズ,モデルファミリ,ポストトレーニングの異なるモデルを比較し,コーパスレベルの難易度だけでは見つからないパフォーマンスの有意義な違いを示す,特定のコンテキストに対する洞察を列挙する。
論文 参考訳(メタデータ) (2025-06-02T19:44:06Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。