論文の概要: Singular Vectors of Attention Heads Align with Features
- arxiv url: http://arxiv.org/abs/2602.13524v1
- Date: Fri, 13 Feb 2026 23:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.129637
- Title: Singular Vectors of Attention Heads Align with Features
- Title(参考訳): 特徴を考慮した注意頭部の特異ベクトル
- Authors: Gabriel Franco, Carson Loughridge, Mark Crovella,
- Abstract要約: 特異ベクトルは、特徴を直接観察できるモデルにおける特徴としっかりと一致していることを示す。
次に、そのようなアライメントが様々な条件下で期待されていることを理論的に示す。
私たちは、機能表現が直接観察できない実際のモデルにおいて、どのように、運用上、アライメントが認識されるのかを尋ねてクローズします。
- 参考スコア(独自算出の注目度): 5.2088687180672375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying feature representations in language models is a central task in mechanistic interpretability. Several recent studies have made an implicit assumption that feature representations can be inferred in some cases from singular vectors of attention matrices. However, sound justification for this assumption is lacking. In this paper we address that question, asking: why and when do singular vectors align with features? First, we demonstrate that singular vectors robustly align with features in a model where features can be directly observed. We then show theoretically that such alignment is expected under a range of conditions. We close by asking how, operationally, alignment may be recognized in real models where feature representations are not directly observable. We identify sparse attention decomposition as a testable prediction of alignment, and show evidence that it emerges in a manner consistent with predictions in real models. Together these results suggest that alignment of singular vectors with features can be a sound and theoretically justified basis for feature identification in language models.
- Abstract(参考訳): 言語モデルにおける特徴表現の同定は機械的解釈可能性の中心的な課題である。
いくつかの最近の研究では、特徴表現は注意行列の特異ベクトルから推論できるという暗黙の仮定がされている。
しかし、この仮定の正当性は欠如している。
特異ベクトルはなぜ、いつ、特徴と整合するのか?
まず、特異ベクトルが直接観察できるモデルにおける特徴と強く整合していることを示す。
次に、このようなアライメントが様々な条件下で期待されていることを理論的に示す。
私たちは、機能表現が直接観察できない実際のモデルにおいて、どのように、運用上、アライメントが認識されるのかを尋ねてクローズします。
スパースアテンション分解はアライメントの検証可能な予測であり,実際のモデルにおける予測と一致した方法で現れることを示す。
これらの結果は、特異ベクトルと特徴とのアライメントが、言語モデルにおける特徴識別の健全かつ理論的に正当化された基礎となることを示唆している。
関連論文リスト
- From Black-box to Causal-box: Towards Building More Interpretable Models [57.23201263629627]
本稿では, 因果解釈可能性の概念を導入し, 特定のモデルのクラスから対実的クエリを評価できるときの形式化について述べる。
我々は、与えられたモデルアーキテクチャが与えられた偽物クエリをサポートするかどうかを決定する完全なグラフィカルな基準を導出する。
論文 参考訳(メタデータ) (2025-10-24T20:03:18Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Inspection and Control of Self-Generated-Text Recognition Ability in Llama3-8b-Instruct [0.0]
Llama3-8b-Instruct のチャットモデルでは,その出力を人間のものと確実に区別できることがわかった。
モデルが正しい自己書式認識判定を行うとき, モデル残ストリーム内のベクトルを差動活性化する。
ベクトルはモデルの振る舞いと知覚の両方を制御できることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:26:21Z) - Rationalizing Predictions by Adversarial Information Calibration [65.19407304154177]
我々は2つのモデルを共同で訓練する: 1つは、正確だがブラックボックスな方法でタスクを解く典型的なニューラルモデルであり、もう1つは、予測の理論的根拠を付加するセレクタ・予測モデルである。
我々は,2つのモデルから抽出した情報を,それらの違いが欠落した特徴や過度に選択された特徴の指標であるように校正するために,敵対的手法を用いる。
論文 参考訳(メタデータ) (2023-01-15T03:13:09Z) - A simple probabilistic neural network for machine understanding [0.0]
本稿では,機械理解のためのモデルとして,確率的ニューラルネットワークと内部表現の固定化について論じる。
内部表現は、それが最大関係の原理と、どのように異なる特徴が組み合わされるかについての最大無知を満たすことを要求して導出する。
このアーキテクチャを持つ学習機械は、パラメータやデータの変化に対する表現の連続性など、多くの興味深い特性を享受している、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T13:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。