論文の概要: Quantifying LLM Attention-Head Stability: Implications for Circuit Universality
- arxiv url: http://arxiv.org/abs/2602.16740v1
- Date: Tue, 17 Feb 2026 23:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.260489
- Title: Quantifying LLM Attention-Head Stability: Implications for Circuit Universality
- Title(参考訳): LLMのアテンション・ヘッド安定性の定量化:回路の普遍性への示唆
- Authors: Karan Bali, Jack Stanley, Praneet Suresh, Danilo Bzdok,
- Abstract要約: 様々な大きさのトランスフォーマー言語モデルの安定性について検討する。
中層ヘッドは最も安定していないが、最も表現的に異なる。
より深いモデルでは、より深い奥行きが示される。
- 参考スコア(独自算出の注目度): 2.6132365604376404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In mechanistic interpretability, recent work scrutinizes transformer "circuits" - sparse, mono or multi layer sub computations, that may reflect human understandable functions. Yet, these network circuits are rarely acid-tested for their stability across different instances of the same deep learning architecture. Without this, it remains unclear whether reported circuits emerge universally across labs or turn out to be idiosyncratic to a particular estimation instance, potentially limiting confidence in safety-critical settings. Here, we systematically study stability across-refits in increasingly complex transformer language models of various sizes. We quantify, layer by layer, how similarly attention heads learn representations across independently initialized training runs. Our rigorous experiments show that (1) middle-layer heads are the least stable yet the most representationally distinct; (2) deeper models exhibit stronger mid-depth divergence; (3) unstable heads in deeper layers become more functionally important than their peers from the same layer; (4) applying weight decay optimization substantially improves attention-head stability across random model initializations; and (5) the residual stream is comparatively stable. Our findings establish the cross-instance robustness of circuits as an essential yet underappreciated prerequisite for scalable oversight, drawing contours around possible white-box monitorability of AI systems.
- Abstract(参考訳): 機械的解釈可能性において、最近の研究は、人間の理解可能な機能を反映した、スパース、モノまたはマルチレイヤのサブ計算であるトランスフォーマーの「回路」を精査している。
しかし、これらのネットワーク回路は、同じディープラーニングアーキテクチャの異なるインスタンスにまたがる安定性のために、酸テストされることはめったにない。
これなしでは、報告された回路が研究室全体で普遍的に現れるのか、あるいは特定の推定インスタンスと慣用的に同期していることが判明したのかは不明であり、安全クリティカルな設定の信頼性が制限される可能性がある。
そこで我々は,様々な大きさの変圧器言語モデルにおいて,安定性の相違を体系的に研究する。
我々は、レイヤーごとにレイヤーを定量化し、注意頭が独立に初期化されたトレーニングの実行間でどのように表現を学習するかを定量化する。
厳密な実験により,(1)中層頭部は最も安定度が低いが最も表現性が異なること,(2)深層モデルではより強い深層拡散を示すこと,(3)深層での不安定な頭部は同一層からのピアよりも機能的に重要であること,(4)重量減衰最適化を適用することにより,ランダムモデル初期化における注意-頭部安定性が著しく向上すること,(5)残留ストリームは比較的安定であること,などが示された。
我々の研究は、回路のクロスインスタンスロバスト性を、スケーラブルな監視のために必要不可欠だが不適切な前提として確立し、AIシステムのホワイトボックス監視可能性について輪郭を描いている。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Why Some Models Resist Unlearning: A Linear Stability Perspective [7.446140380340418]
我々は線形コヒーレンス安定性のレンズを通してアンラーニングを行う。
我々は3つの軸に沿ってコヒーレンスを分解する。
データ特性と忘れやすさを更に関連付けるために,信号+雑音モデルの下で2層ReLU CNNについて検討する。
経験的幾何学では、ヘッセンテストとCNNヒートマップが予測境界と密接に一致していることを示し、安定性勾配に基づくアンラーニングを検証、混合、データ/モデルアライメントの関数としてマッピングする。
論文 参考訳(メタデータ) (2026-02-03T01:47:26Z) - Stabilizing Information Flow Entropy: Regularization for Safe and Interpretable Autonomous Driving Perception [8.543667347406286]
我々はディープニューラルエンコーダを階層型通信チェーンとして再認識し、生の知覚入力をタスク関連潜在特徴に圧縮する。
Elossは,軽量でプラグアンドプレイの学習目標として設計された,エントロピーベースの新しい正規化器である。
論文 参考訳(メタデータ) (2025-09-18T17:01:27Z) - Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts [1.9458156037869137]
収束学習は、神経システムが同様の内部表現に到達する度合いである。
数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。
発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-26T00:04:24Z) - Is Smoothness the Key to Robustness? A Comparison of Attention and Convolution Models Using a Novel Metric [0.0]
既存の堅牢性評価アプローチは理論的な一般性を欠いているか、経験的評価に大きく依存していることが多い。
本研究では,トポロジカルデータ解析とリプシッツ連続性を橋渡ししてロバスト性評価を行う層解析に基づくトポリップを提案する。
論文 参考訳(メタデータ) (2024-10-23T07:44:14Z) - Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observability [59.758009422067]
線形状態空間モデルにおいて閉形式ガウス推論を行う独立なカルマンフィルタ層を提案する。
効率的な線形リカレント層と同様に、Kalmanフィルタ層は並列スキャンを使用してシーケンシャルデータを処理している。
実験により、不確実性推論が意思決定の鍵となる問題においてカルマンフィルタ層が優れており、他のステートフルモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-25T11:22:29Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Visual Representation Learning Does Not Generalize Strongly Within the
Same Domain [41.66817277929783]
我々は、17の教師なし、弱弱教師付き、完全教師付き表現学習アプローチが、単純なデータセットの変動の生成要因を正しく推測するかどうかを検証した。
2000以上のモデルをトレーニングし、テストし、それらすべてが、監視信号やアーキテクチャバイアスに関係なく、基盤となるメカニズムを学ぶのに苦労していることを観察します。
論文 参考訳(メタデータ) (2021-07-17T11:24:18Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。