論文の概要: MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations
- arxiv url: http://arxiv.org/abs/2602.01219v2
- Date: Tue, 03 Feb 2026 03:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.844698
- Title: MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations
- Title(参考訳): MiTAアテンション:トップkアクティベーションの混合による効率的な高速ウェイトスケーリング
- Authors: Qishuai Wen, Zhiyuan Huang, Xianghan Meng, Wei He, Chun-Guang Li,
- Abstract要約: トランスフォーマーでは、N幅の表現能力は増大するが、高速な重量のスケーリングは非常に長いシーケンスでは高価になる。
最近、この高速なスケーリングの観点はMixture-of-Experts(MoE)の注意を動機付け、シーケンスを高速な専門家に分割し、トークンを緩やかにルーティングする。
本稿では、この視点を、ルーティングと圧縮器圧縮による高速ウェイトスケーリングと解釈することで、幅広い効率的な注意方法のための統一フレームワークへと引き上げる。
- 参考スコア(独自算出の注目度): 11.032826710593632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention operator in Transformers can be viewed as a two-layer fast-weight MLP, whose weights are dynamically instantiated from input tokens and whose width equals sequence length N. As the context extends, the expressive capacity of such an N-width MLP increases, but scaling its fast weights becomes prohibitively expensive for extremely long sequences. Recently, this fast-weight scaling perspective has motivated the Mixture-of-Experts (MoE) attention, which partitions the sequence into fast-weight experts and sparsely routes the tokens to them. In this paper, we elevate this perspective to a unifying framework for a wide range of efficient attention methods by interpreting them as scaling fast weights through routing and/or compression. Then we propose a compress-and-route strategy, which compresses the N-width MLP into a narrower one using a small set of landmark queries and constructs deformable experts by gathering top-k activated key-value pairs for each landmark query. We call this strategy a Mixture of Top-k Activations (MiTA), and refer to the resulting efficient mechanism as MiTA attention. Preliminary experiments on vision tasks demonstrate the promise of our MiTA attention and motivate further investigation on its optimization and broader applications in more challenging settings.
- Abstract(参考訳): トランスフォーマーのアテンション演算子は、入力トークンから動的に重みをインスタンス化し、幅がシーケンス長Nと等しい2層ファストウェイトMLPと見なすことができる。
最近、この高速なスケーリングの観点はMixture-of-Experts(MoE)の注意を動機付け、シーケンスを高速な専門家に分割し、トークンを緩やかにルーティングする。
本稿では,この視点を,ルーティングおよび/または圧縮による高速ウェイトスケーリングと解釈することで,多種多様な効率的なアテンション手法のための統一フレームワークへと引き上げる。
そこで,N-width MLPを小さなランドマーククエリを用いてより狭い範囲に圧縮し,各ランドマーククエリに対してトップkアクティベートされたキー値ペアを収集して変形可能な専門家を構成する圧縮・ルート戦略を提案する。
我々はこの戦略をMiTA(Mixture of Top-k Activation)と呼び、その結果の効率的なメカニズムをMiTA注意と呼ぶ。
視覚タスクに関する予備的な実験は、我々のMiTA注意の可能性を実証し、その最適化とより困難な環境での幅広い応用に関するさらなる調査を動機付けます。
関連論文リスト
- How Smoothing is N-simplicial Attention? [57.21791642118324]
N-simplicial attention, go to pairwise token similarity to higher-order interaction, and adapt it for Rotary Position Embeddings (RoPE)。
複雑性の増大を管理するため,計算負荷をタスクに敏感なインタラクションに集中させることができるコスト効率のよい単純な選択法を提案する。
論文 参考訳(メタデータ) (2025-12-17T17:10:57Z) - SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。
SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文 参考訳(メタデータ) (2025-08-31T17:08:33Z) - MMG-Vid: Maximizing Marginal Gains at Segment-level and Token-level for Efficient Video LLMs [67.75865317787708]
MMG-Vidは、ビデオ理解のためのトレーニング不要なビジュアルトークンプルーニングフレームワークである。
MMG-Vidはオリジナルのパフォーマンスの99.5%以上を維持でき、視覚トークンの75%を効果的に削減できることを示す。
論文 参考訳(メタデータ) (2025-08-28T17:50:03Z) - The New LLM Bottleneck: A Systems Perspective on Latent Attention and Mixture-of-Experts [5.10053312713569]
本稿では,近年のアーキテクチャシフト,すなわちMLA(Multi-head Latent Attention)とMixture-of-Experts(Mixture-of-Experts)が,特殊注意ハードウェアの前提に挑戦していることを論じる。
次世代トランスフォーマーにおける中心的な課題は、もはや単一のメモリバウンド層を加速させることではない。
代わりに、大規模モデルの多様な要求を管理するために、十分なメモリ容量、メモリ帯域幅、高帯域相互接続を備えたバランスのとれたシステムの設計に焦点を移さなければならない。
論文 参考訳(メタデータ) (2025-07-21T10:18:33Z) - Polar Sparsity: High Throughput Batched LLM Inferencing with Scalable Contextual Sparsity [4.24164487223914]
我々はPolar Sparsityを導入し、バッチサイズとシーケンスの長さをスケールするときに、高密度からアテンション層への空間的重要度の重要なシフトを強調します。
我々は, OPT, LLaMA-2 & 3 などのモデルに対して, 様々なバッチサイズおよびシーケンス長に対して最大 (2.2 時間) のエンドツーエンド速度を, 精度を損なうことなく実現し, ハードウェア効率が高く, 分散性に配慮したカーネルを開発した。
論文 参考訳(メタデータ) (2025-05-20T20:15:42Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの計算タスクで素晴らしいパフォーマンスを達成した。
密度の高い接続は、より大きな膨張比をサポートするスパースブロック対角構造に置き換えることができることを示す。
また、トレーニング中に並列分岐として、軽量でパラメータフリーなチャネル共分散アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。