論文の概要: MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations
- arxiv url: http://arxiv.org/abs/2602.01219v2
- Date: Tue, 03 Feb 2026 03:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.844698
- Title: MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations
- Title(参考訳): MiTAアテンション:トップkアクティベーションの混合による効率的な高速ウェイトスケーリング
- Authors: Qishuai Wen, Zhiyuan Huang, Xianghan Meng, Wei He, Chun-Guang Li,
- Abstract要約: トランスフォーマーでは、N幅の表現能力は増大するが、高速な重量のスケーリングは非常に長いシーケンスでは高価になる。
最近、この高速なスケーリングの観点はMixture-of-Experts(MoE)の注意を動機付け、シーケンスを高速な専門家に分割し、トークンを緩やかにルーティングする。
本稿では、この視点を、ルーティングと圧縮器圧縮による高速ウェイトスケーリングと解釈することで、幅広い効率的な注意方法のための統一フレームワークへと引き上げる。
- 参考スコア(独自算出の注目度): 11.032826710593632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention operator in Transformers can be viewed as a two-layer fast-weight MLP, whose weights are dynamically instantiated from input tokens and whose width equals sequence length N. As the context extends, the expressive capacity of such an N-width MLP increases, but scaling its fast weights becomes prohibitively expensive for extremely long sequences. Recently, this fast-weight scaling perspective has motivated the Mixture-of-Experts (MoE) attention, which partitions the sequence into fast-weight experts and sparsely routes the tokens to them. In this paper, we elevate this perspective to a unifying framework for a wide range of efficient attention methods by interpreting them as scaling fast weights through routing and/or compression. Then we propose a compress-and-route strategy, which compresses the N-width MLP into a narrower one using a small set of landmark queries and constructs deformable experts by gathering top-k activated key-value pairs for each landmark query. We call this strategy a Mixture of Top-k Activations (MiTA), and refer to the resulting efficient mechanism as MiTA attention. Preliminary experiments on vision tasks demonstrate the promise of our MiTA attention and motivate further investigation on its optimization and broader applications in more challenging settings.
- Abstract(参考訳): トランスフォーマーのアテンション演算子は、入力トークンから動的に重みをインスタンス化し、幅がシーケンス長Nと等しい2層ファストウェイトMLPと見なすことができる。
最近、この高速なスケーリングの観点はMixture-of-Experts(MoE)の注意を動機付け、シーケンスを高速な専門家に分割し、トークンを緩やかにルーティングする。
本稿では,この視点を,ルーティングおよび/または圧縮による高速ウェイトスケーリングと解釈することで,多種多様な効率的なアテンション手法のための統一フレームワークへと引き上げる。
そこで,N-width MLPを小さなランドマーククエリを用いてより狭い範囲に圧縮し,各ランドマーククエリに対してトップkアクティベートされたキー値ペアを収集して変形可能な専門家を構成する圧縮・ルート戦略を提案する。
我々はこの戦略をMiTA(Mixture of Top-k Activation)と呼び、その結果の効率的なメカニズムをMiTA注意と呼ぶ。
視覚タスクに関する予備的な実験は、我々のMiTA注意の可能性を実証し、その最適化とより困難な環境での幅広い応用に関するさらなる調査を動機付けます。
関連論文リスト
- How Smoothing is N-simplicial Attention? [57.21791642118324]
N-simplicial attention, go to pairwise token similarity to higher-order interaction, and adapt it for Rotary Position Embeddings (RoPE)。
複雑性の増大を管理するため,計算負荷をタスクに敏感なインタラクションに集中させることができるコスト効率のよい単純な選択法を提案する。
論文 参考訳(メタデータ) (2025-12-17T17:10:57Z) - MMG-Vid: Maximizing Marginal Gains at Segment-level and Token-level for Efficient Video LLMs [67.75865317787708]
MMG-Vidは、ビデオ理解のためのトレーニング不要なビジュアルトークンプルーニングフレームワークである。
MMG-Vidはオリジナルのパフォーマンスの99.5%以上を維持でき、視覚トークンの75%を効果的に削減できることを示す。
論文 参考訳(メタデータ) (2025-08-28T17:50:03Z) - The New LLM Bottleneck: A Systems Perspective on Latent Attention and Mixture-of-Experts [5.10053312713569]
本稿では,近年のアーキテクチャシフト,すなわちMLA(Multi-head Latent Attention)とMixture-of-Experts(Mixture-of-Experts)が,特殊注意ハードウェアの前提に挑戦していることを論じる。
次世代トランスフォーマーにおける中心的な課題は、もはや単一のメモリバウンド層を加速させることではない。
代わりに、大規模モデルの多様な要求を管理するために、十分なメモリ容量、メモリ帯域幅、高帯域相互接続を備えたバランスのとれたシステムの設計に焦点を移さなければならない。
論文 参考訳(メタデータ) (2025-07-21T10:18:33Z) - Polar Sparsity: High Throughput Batched LLM Inferencing with Scalable Contextual Sparsity [4.24164487223914]
我々はPolar Sparsityを導入し、バッチサイズとシーケンスの長さをスケールするときに、高密度からアテンション層への空間的重要度の重要なシフトを強調します。
我々は, OPT, LLaMA-2 & 3 などのモデルに対して, 様々なバッチサイズおよびシーケンス長に対して最大 (2.2 時間) のエンドツーエンド速度を, 精度を損なうことなく実現し, ハードウェア効率が高く, 分散性に配慮したカーネルを開発した。
論文 参考訳(メタデータ) (2025-05-20T20:15:42Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの計算タスクで素晴らしいパフォーマンスを達成した。
密度の高い接続は、より大きな膨張比をサポートするスパースブロック対角構造に置き換えることができることを示す。
また、トレーニング中に並列分岐として、軽量でパラメータフリーなチャネル共分散アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。