論文の概要: Sparse Attention Post-Training for Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2512.05865v1
- Date: Fri, 05 Dec 2025 16:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.104541
- Title: Sparse Attention Post-Training for Mechanistic Interpretability
- Title(参考訳): メカニスティック・インタプリタビリティのためのスパースアテンションポストトレーニング
- Authors: Florent Draye, Anson Lei, Ingmar Posner, Bernhard Schölkopf,
- Abstract要約: 本稿では,トランスフォーマーの注意を犠牲にすることなく,簡易なポストトレーニング手法を提案する。
制約された余剰目的の下でフレキシブルな空間規則化を適用することで、1Bパラメータまでのモデルで、初期トレーニング損失を抑えつつ、注意接続性を$approx 0.3 %に抑えることができることを示す。
- 参考スコア(独自算出の注目度): 55.030850996535776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a simple post-training method that makes transformer attention sparse without sacrificing performance. Applying a flexible sparsity regularisation under a constrained-loss objective, we show on models up to 1B parameters that it is possible to retain the original pretraining loss while reducing attention connectivity to $\approx 0.3 \%$ of its edges. Unlike sparse-attention methods designed for computational efficiency, our approach leverages sparsity as a structural prior: it preserves capability while exposing a more organized and interpretable connectivity pattern. We find that this local sparsity cascades into global circuit simplification: task-specific circuits involve far fewer components (attention heads and MLPs) with up to 100x fewer edges connecting them. These results demonstrate that transformer attention can be made orders of magnitude sparser, suggesting that much of its computation is redundant and that sparsity may serve as a guiding principle for more structured and interpretable models.
- Abstract(参考訳): 本稿では,トランスフォーマーの注意を犠牲にすることなく,簡易なポストトレーニング手法を提案する。
制約されたロスの目的の下でフレキシブルな空間規則化を適用することで、1Bパラメータまでのモデルで、注意接続を$\approx 0.3 \%$に抑えながら、元の事前学習損失を抑えることができることを示す。
計算効率を高めるために設計されたスパースアテンション法とは異なり、我々の手法はスパーシティを構造的先行として活用し、より組織的で解釈可能な接続パターンを露呈しながら能力を維持する。
タスク固有の回路は、最大100倍のエッジを接続するコンポーネント(アテンションヘッドとMPP)をはるかに少なくする。
これらの結果は、トランスフォーマーの注意を桁違いのスペーサーにすることができることを示し、その計算の多くが冗長であり、スペーサーがより構造化され解釈可能なモデルのための指針となることを示唆している。
関連論文リスト
- Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank [65.00301565190824]
mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。
mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-09T14:39:26Z) - RefAM: Attention Magnets for Zero-Shot Referral Segmentation [103.98022860792504]
本稿では,下流タスクの拡散変換器から特徴,注意点を活用できる新しい手法を提案する。
重要な洞察は、停止語は注意磁石として機能するということだ。
停止語を付加した背景アクティベーションを小さなクラスタに分割するアテンション再分配戦略を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:59:57Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Learning a Consensus Sub-Network with Polarization Regularization and One Pass Training [2.895034191799291]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10, CIFAR-100, Tiny Imagenet で得られた結果から, ディープネットワークにおける接続の50%を, 1%の分類精度で除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - Dynamic Feature Regularized Loss for Weakly Supervised Semantic
Segmentation [37.43674181562307]
動的に更新される浅度と深度の両方の機能を利用する新たな正規化損失を提案する。
提案手法は,新しい最先端性能を実現し,他の手法よりも6%以上のmIoU増加率で優れたマージンを達成している。
論文 参考訳(メタデータ) (2021-08-03T05:11:00Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。