論文の概要: Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat
- arxiv url: http://arxiv.org/abs/2603.02227v1
- Date: Wed, 11 Feb 2026 15:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.091856
- Title: Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat
- Title(参考訳): ゆるやかな吸収:なぜランダムゲートが耐え難いのか
- Authors: Keston Aquino-Michaels,
- Abstract要約: 疎い注意がエンドツーエンドにトレーニングされると、モデルのQ/K/V投影は、どんなマスクにも適応する。
微分可能なソフトゲーティングは、ゲートが学習されているかランダムであるかに関わらず、ほぼ同じ難易度に収束する。
専門家はどのルーターにも適応するが、注意は構造的により厳しい形を示すことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can a transformer learn which attention entries matter during training? In principle, yes: attention distributions are highly concentrated, and a small gate network can identify the important entries post-hoc with near-perfect accuracy. In practice, barely. When sparse attention is trained end-to-end, the model's Q/K/V projections co-adapt to whatever mask is imposed, absorbing the routing signal until learned gates perform little better than frozen random gates. We call this routing absorption and present four independent lines of evidence for it in a controlled 31M-parameter transformer: (1) differentiable soft gating converges to nearly the same perplexity whether the gate is learned or random (48.73 +/- 0.60 vs. 49.83 +/- 0.04 over 3 seeds); (2) hard top-k gating receives exactly zero gradient through the mask; (3) a gate distilled onto co-adapted Q/K/V achieves high F1 against oracle masks but catastrophic perplexity when deployed (601.6 vs. 48.6 on mask-agnostic Q/K/V); and (4) stochastic mask randomization during training fails to prevent co-adaptation (78.2 ppl deployed dense vs. 37.3 baseline). We connect routing absorption to the same phenomenon in Mixture-of-Experts, where random routing matches learned routing because experts co-adapt to any router, but show that attention exhibits a structurally more severe form: shared Q/K/V parameters enable cross-layer compensation pathways absent in MoE, where experts are self-contained modules. The implication is that end-to-end sparse attention methods employing per-query token-level gating face absorption pressure proportional to the parameter asymmetry between the gate and the model, and that post-hoc approaches, which decouple representation learning from sparsification, sidestep this entirely.
- Abstract(参考訳): トランスフォーマーは、トレーニング中にどの注意項目が重要かを学ぶことができるか?
原則として、注意分布は高度に集中しており、小さなゲートネットワークはポストホックの重要項目をほぼ完全精度で識別することができる。
実際には、ほとんど。
粗い注意をエンドツーエンドにトレーニングする場合、モデルのQ/K/Vプロジェクションは任意のマスクに適応し、学習ゲートが凍結したランダムゲートよりもほとんどパフォーマンスしないまでルーティング信号を吸収する。
制御された31Mパラメータ変換器において、この経路の吸収と4つの独立した証拠を提示する: (1) 可変なソフトゲーティングは、ゲートが学習されるかランダムであるか(48.73 +/- 0.60 vs. 49.83 +/- 0.04 over 3 seed)、(2) ハードトップキーゲーティングは、マスクを通して正確にゼロ勾配を受信し、(3) 共適応Q/K/Vに蒸留されたゲートは、オラクルマスクに対して高いF1を達成するが、デプロイ時に破滅的なパープレキシティ(601.6 vs. 48.6 on mask-agnostic Q/K/V)、(4) トレーニング中の確率的マスクランダム化は、コダプテーションの防止に失敗する(78.2 ppl vs 373)。
我々は,Mixture-of-Expertsにおいて,ランダムなルーティングがどのルータにも適応するため,ランダムなルーティングがルーティングを学習するのと同じ現象にルーティングの吸収を接続する。
その意味は、ゲートとモデルの間のパラメータ非対称性に比例した、キー単位のガッティング面吸収圧力を用いたエンドツーエンドのスパースアテンション法と、疎化から表現学習を分離するポストホックアプローチが、完全にその逆であるということである。
関連論文リスト
- Grassmannian Mixture-of-Experts: Concentration-Controlled Routing on Subspace Manifolds [6.908972852063454]
Mixture-of-Expertsモデルは、エキスパートにトークンを割り当てるために学習ルータに依存しているが、標準的なソフトマックスゲーティングは、スパーシリティと利用のトレードオフを制御するための原則的なメカニズムを提供していない。
部分空間のグラスマン多様体上で動くルーティングフレームワークGrassmannian MoEを提案する。
論文 参考訳(メタデータ) (2026-02-19T20:03:23Z) - Multi-Head Attention as a Source of Catastrophic Forgetting in MoE Transformers [28.800065959523696]
Mixture-of-Experts (MoE)アーキテクチャは、継続的学習に適していると考えられていることが多い。
本稿では,MH-MoEを提案する。このMH-MoEは,部分表現を頭部的にルーティングすることで,ルーティングの粒度を増大させ,合成衝突を低減する。
論文 参考訳(メタデータ) (2026-02-13T03:59:09Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - A fidelity-driven approach to quantum circuit partitioning via weighted hypergraphs for noise-resilient computation [0.0]
本稿では、量子回路を忠実度対応ハイパーグラフに変換する新しいフレームワークであるFidelipartを紹介する。
6-qubit/22-gate, 10-qubit/55-gate, 24-qubit/88-gateベンチマーク上で, BQSKitのQuick Partitionerに対するFidelipartの評価を行った。
結果、Fidelipartの優れた性能を示し、SWAPゲートの削減は77.3%から100%、カットキュービットの52.2%まで低下した。
論文 参考訳(メタデータ) (2025-06-07T17:13:51Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [38.37291040904089]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの計算タスクで素晴らしいパフォーマンスを達成した。
密度の高い接続は、より大きな膨張比をサポートするスパースブロック対角構造に置き換えることができることを示す。
また、トレーニング中に並列分岐として、軽量でパラメータフリーなチャネル共分散アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Random quantum circuits anti-concentrate in log depth [118.18170052022323]
本研究では,典型的な回路インスタンスにおける測定結果の分布に要するゲート数について検討する。
我々の反集中の定義は、予測衝突確率が分布が均一である場合よりも大きい定数因子に過ぎないということである。
ゲートが1D環上で最寄りである場合と、ゲートが長距離である場合の両方において、$O(n log(n))ゲートも十分であることを示す。
論文 参考訳(メタデータ) (2020-11-24T18:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。