論文の概要: The Routing and Filtering Structure of Attention
- arxiv url: http://arxiv.org/abs/2605.18826v1
- Date: Tue, 12 May 2026 19:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.363805
- Title: The Routing and Filtering Structure of Attention
- Title(参考訳): 注意のルーティングとフィルタリング構造
- Authors: Shafayeth Jamil, Rehan Kapadia,
- Abstract要約: 事前訓練された5つの変圧器に1776個のヘッドを分解し、低階のルーティングを動作させる。
フィルタからルーティングをアンタングルする診断パラメータ化として、$S$-D$ attentionを導入します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention interaction matrix $QK^{\top}$ contains two entangled computations: a skew-symmetric component that redistributes information between positions (routing) and a symmetric component that scales mutual relevance (filtering). We decompose 1776 heads across five pretrained transformers and find routing operating at low rank, well below the routing capacity allocated by the weight kernel. We introduce $S$-$D$ attention as a diagnostic parameterization that disentangles routing from filtering by construction with guaranteed stability ($\mathrm{Re}(λ) \le 0$) and trains stably without layer normalization. When disentangled and unnormalized, routing self-organizes into a spectral cascade, effective rank $2$ at the first layer, expanding with depth across six scales from 7M to 355M parameters. The cascade predicts where attention can be simplified: linearizing the first seven layers of 125M $S$-$D$ attention costs ${<}5\%$ perplexity, whereas standard attention collapses under the same intervention. The linearizable region widens with depth. Replacing the first four layers with ELU+1 linear attention reaches within $1.4\%$ of baseline at full head dimension. Cascade-allocated architectures trade attention parameters for perplexity ($47\%-65\%$ fewer attention parameters at $+3.9\%$ to $+8.4\%$ PPL). The routing-filtering decomposition makes the spectral budget legible; the cascade makes it actionable.
- Abstract(参考訳): 注意相互作用行列 $QK^{\top}$ は、2つの絡み合った計算を含む: 位置(ルーティング)間で情報を再分割するスキュー対称成分と、相互関連性(フィルタリング)を拡大する対称成分である。
プリトレーニングされた5つのトランスにまたがる1776個のヘッドを分解し、ウェイトカーネルが割り当てるルーティング能力よりはるかに低いランクでルーティングを動作させる。
保証された安定性 (\mathrm{Re}(λ) \le 0$) でフィルタからルーティングをアンタングルする診断パラメータ化として$S$-D$を導入し、層正規化なしで安定的にトレーニングする。
アンタングル化されて非正規化されると、ルーティングはスペクトルカスケードに自己組織化され、第1層の有効ランクは2ドルとなり、深さは7Mから355Mの6つのスケールに広がる。
125M$S$-$D$アテンションの最初の7層を線形化すると${<}5\%$パープレキシティがかかるが、標準的なアテンションは同じ介入の下で崩壊する。
線形化可能な領域は深さで拡大する。
最初の4層をELU+1リニアアテンションで置き換えると、全ヘッドディメンションでのベースラインの1.4\%以内に到達する。
カスケード配置のアーキテクチャでは、パープレキシティ(47\%-65\%$)に対する注意パラメータを、+3.9\%$から$+8.4\%$PPLに減らしている。
ルーティングフィルタリング分解は、スペクトル予算を正当にし、カスケードはそれを実行可能なものにする。
関連論文リスト
- Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality [0.0]
学習したセントロイドに対するコサイン類似性ルーティングを用いたスパース・ミックス・オブ・エクササイズ(MoE)アーキテクチャを構築した。
ルーティングトポロジがパープレキシティ(PPL)を決定できないことが分かりました。
トポロジレベルの等質性と共存するエキスパートレベルと因果制御性について、共用論文で検討する。
論文 参考訳(メタデータ) (2026-04-15T21:02:02Z) - Sensitivity-Positional Co-Localization in GQA Transformers [0.0]
グループクエリアテンション変換器における基本構造問題について検討する。
タスクの正確性に最も敏感なレイヤは、位置エンコーディング適応が最大のレバレッジを持つレイヤと一致しているか?
LSLORAは,新しい正当性差分隠れ状態メートル法により同定された層へのLoRA適応を制限し,GARFAは対象層に8個の学習可能なKVヘッドスカラー乗算器を付加する。
論文 参考訳(メタデータ) (2026-04-09T03:41:33Z) - Training Transformers in Cosine Coefficient Space [0.0]
キャラクターレベルのシェイクスピアのスクラッチから訓練されたトランスフォーマーは、検証損失が1.604$で$K = mn/2$に達した。
同じトレーニング可能なパラメータ数でのランク48のLoRA分解は、わずか1.801$である。
ランダムな正規直交基底はノイズ中のDCTを$K = mn/2$で一致させ、$K = mn/10$と$K = mn/20$で圧縮すると、高階行列をホストできる部分空間が損失を低く保つことを示す。
論文 参考訳(メタデータ) (2026-04-06T05:39:31Z) - Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - Spectral Edge Dynamics of Training Trajectories: Signal--Noise Geometry Across Scales [0.0]
コンヒーレントな方向のみにおいてトランスフォーマー訓練軌道が発展することを示す。
共同作業では、同じスペクトル幾何学がグラッキングの早期警戒信号を提供する。
論文 参考訳(メタデータ) (2026-03-14T04:46:05Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。