論文の概要: Engineering Verifiable Modularity in Transformers via Per-Layer Supervision
- arxiv url: http://arxiv.org/abs/2603.18029v1
- Date: Sun, 08 Mar 2026 05:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.402341
- Title: Engineering Verifiable Modularity in Transformers via Per-Layer Supervision
- Title(参考訳): Per-Layer Supervision による変圧器のモジュール性検証
- Authors: J. Clayton Kerce,
- Abstract要約: 分散冗長性は損傷を補うため、資本化にとって重要なものとして認識される注目ヘッドを非難することは、最小限の行動変化をもたらす。
アーキテクチャの介入が隠されたモジュール性を公開することを実証します。
このことは、受動的観察から能動的制御への解釈可能性変換の方法論を台無しにしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers resist surgical control. Ablating an attention head identified as critical for capitalization produces minimal behavioral change because distributed redundancy compensates for damage. This Hydra effect renders interpretability illusory: we may identify components through correlation, but cannot predict or control their causal role. We demonstrate that architectural interventions can expose hidden modularity. Our approach combines dual-stream processing separating token and contextual representations, per-layer supervision providing independent gradient signal at each depth, and gated attention regularizing toward discrete activation patterns. When trained with per-layer supervision, models produce ablation effects 5 to 23 times larger than architecturally identical controls trained with standard objectives. This enables 4 times greater control leverage on targeted behaviors: scaling identified attention heads produces smooth, predictable changes in model output. The key finding is architectural. Without per-layer supervision, ablation damage concentrates near zero with low variance (Winograd standard deviation 0.63%). With per-layer supervision, effects spread widely (standard deviation 6.32%), revealing which predictions depend on which circuits. The larger variance is not measurement noise but the signature of unmasked modularity. We validate our approach through three components: engineered features that capture computational dynamics rather than vocabulary structure (validated by near-zero correlation with raw activation clustering), an architecture providing positive control for modularity, and causal experiments demonstrating functional reorganization where different tasks route through different attention heads. This es tablishes a methodology for transforming interpretability from passive observation to active control.
- Abstract(参考訳): トランスフォーマーは外科的コントロールに抵抗します。
分散冗長性は損傷を補うため、資本化にとって重要なものとして認識される注目ヘッドを非難することは、最小限の行動変化をもたらす。
このHydra効果は、解釈可能性のイラストレーションを与える: 相関を通してコンポーネントを識別するが、それらの因果的役割を予測または制御することはできない。
アーキテクチャの介入が隠されたモジュール性を公開することを実証します。
提案手法は,トークンとコンテキスト表現を分離するデュアルストリーム処理と,各深さに独立な勾配信号を提供する層間監視と,個別のアクティベーションパターンに適応する注意喚起を組み合わせたものである。
層ごとの監視で訓練すると、標準的な目的で訓練されたアーキテクチャ上同一の制御よりも5倍から23倍のアブレーション効果が得られる。
これにより、ターゲットの動作に対する4倍のコントロールレバレッジが可能になる。 特定された注意のヘッドのスケーリングは、モデル出力のスムーズで予測可能な変更を生成する。
重要な発見はアーキテクチャです。
層間監督がなければ、アブレーション損傷は低分散(ウィノグラード標準偏差0.63%)で0付近に集中する。
層ごとの監視により、効果は広く広がり(標準偏差6.32%)、どの予測がどの回路に依存するかを明らかにする。
大きな分散は、測定ノイズではなく、非マスクモジュラリティの符号である。
ボキャブラリ構造ではなく、計算力学を捉える機能(生のアクティベーションクラスタリングとほぼゼロの相関で検証される)、モジュール性に対する肯定的な制御を提供するアーキテクチャ、異なるタスクが異なるアテンションヘッドを通過する機能的再構成を実証する因果的実験である。
このことは、受動的観察から能動的制御への解釈可能性変換の方法論を台無しにしている。
関連論文リスト
- Backdoor Directions in Vision Transformers [56.382912038371046]
本稿では,視覚変換器(ViT)におけるバックドアアタックの表現方法について検討する。
我々は、トリガーの内部表現に対応するモデルのアクティベーションにおいて、特定のトリガー方向'を識別する。
この方向を診断ツールとして使用して、バックドア機能が層間でどのように処理されるかを追跡する。
論文 参考訳(メタデータ) (2026-03-11T14:13:48Z) - OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions [0.0]
シーケンシャルなモデリングにおいて優れたトランスフォーマーアーキテクチャは、相関学習によって基本的に制限される。
そこで我々はOrthoFormerを提案する。OrthoFormerは機械的変数推定をニューラル制御機能を介してTransformerブロックに直接組み込む因果的基底アーキテクチャである。
論文 参考訳(メタデータ) (2026-03-08T03:05:16Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis [3.1526281887627587]
モデル一般化の予測には推論からのリコールの排除が不可欠である。
我々は、制御された合成言語パズルのデータセットを使用して、層、頭、ニューロンレベルでトランスフォーマーモデルを探索する。
この結果から、リコールと推論は変換器モデルにおける分離可能だが相互作用する回路に依存しているという最初の因果的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-03T04:13:06Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Learning Action-based Representations Using Invariance [18.1941237781348]
我々は,制御に関係のある遠隔状態の特徴を割引する多段階制御可能性指標を学習するアクションビシミュレーション符号化を導入する。
我々は,報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習が,複数の環境におけるサンプル効率を向上させることを実証した。
論文 参考訳(メタデータ) (2024-03-25T02:17:54Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。