論文の概要: SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention
- arxiv url: http://arxiv.org/abs/2509.12817v1
- Date: Tue, 16 Sep 2025 08:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.971769
- Title: SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention
- Title(参考訳): SAGA:効率よく表現力のある線形注意のための選択的適応ゲーティング
- Authors: Yuan Cao, Dong Wang,
- Abstract要約: 入力適応型学習ゲートを導入し,情報集約をKV$特徴写像に選択的に変調する。
SAGAはスループットが1.76$times$改善され、PVT-Tと比較してピークGPUメモリが2.69$times$削減された。
ImageNetデータセットでトップ1の精度を最大4.4%向上させ、計算効率とモデルの有効性を実証する。
- 参考スコア(独自算出の注目度): 10.607730369798551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Transformer architecture excel at modeling long-range dependencies contributing to its widespread adoption in vision tasks the quadratic complexity of softmax-based attention mechanisms imposes a major bottleneck, particularly when processing high-resolution images. Linear attention presents a promising alternative by reformulating the attention computation from $(QK)V$ to $Q(KV)$, thereby reducing the complexity from $\mathcal{O}(N^2)$ to $\mathcal{O}(N)$ while preserving the global receptive field. However, most existing methods compress historical key-value (KV) information uniformly, which can lead to feature redundancy and the loss of directional alignment with the query (Q). This uniform compression results in low-rank $KV$ feature maps, contributing to a performance gap compared to softmax attention. To mitigate this limitation, we propose \textbf{S}elective \textbf{A}daptive \textbf{GA}ting for Efficient and Expressive Linear Attention (SAGA) , which introduces input-adaptive learnable gates to selectively modulate information aggregation into the $KV$ feature map. These gates enhance semantic diversity and alleviate the low-rank constraint inherent in conventional linear attention. Additionally, we propose an efficient Hadamard-product decomposition method for gate computation, which introduces no additional memory overhead. Experiments demonstrate that SAGA achieves a 1.76$\times$ improvement in throughput and a 2.69$\times$ reduction in peak GPU memory compared to PVT-T at a resolution of $1280 \times 1280$. Moreover, it improves top-1 accuracy by up to 4.4\% on the ImageNet dataset, demonstrating both computational efficiency and model effectiveness.
- Abstract(参考訳): Transformerアーキテクチャは、ビジョンタスクの普及に寄与する長距離依存関係のモデリングに優れているが、ソフトマックスベースの注意機構の二次的複雑さは、特に高解像度の画像処理において、大きなボトルネックとなる。
線形アテンションは、注意計算を$(QK)V$から$Q(KV)$に書き換えることで、グローバルな受容場を維持しながら、$\mathcal{O}(N^2)$から$\mathcal{O}(N)$に複雑さを減らし、有望な選択肢を示す。
しかし、既存のほとんどの手法は、履歴キー値(KV)情報を一様に圧縮し、特徴冗長性とクエリ(Q)との方向整合性の喪失につながる可能性がある。
この一様圧縮により、低ランクのKV$特徴写像が得られ、ソフトマックスの注意よりも性能の差が生じる。
この制限を緩和するために、入力適応型学習ゲートを導入し、情報集約を$KV$特徴写像に選択的に変調する、効率的かつ表現的線形注意(SAGA)のための \textbf{S}elective \textbf{A}daptive \textbf{GA}tingを提案する。
これらのゲートは意味的多様性を高め、従来の線形注意に固有の低ランク制約を緩和する。
さらに,ゲート計算のための効率的なアダマール積分解法を提案する。
実験によると、SAGAはスループットが1.76$\times$改善され、ピークGPUメモリが2.69$\times$削減された。
さらに、ImageNetデータセットで最大4.4\%のTop-1精度を改善し、計算効率とモデルの有効性を実証する。
関連論文リスト
- VAMO: Efficient Large-Scale Nonconvex Optimization via Adaptive Zeroth Order Variance Reduction [3.130722489512822]
VAMOは、ZOGスタイルのフレームワークの下で、FOミニバッチ勾配とZO有限差分プローブを組み合わせる。
VAMOはFO法やZO法よりも優れており、効率を向上させるためにより高速で柔軟な選択肢を提供する。
論文 参考訳(メタデータ) (2025-05-20T05:31:15Z) - A3 : an Analytical Low-Rank Approximation Framework for Attention [14.649496050074735]
トレーニング後の低ランク近似フレームワークである$tt Attt 3$を提案する。
tt Attt 3$ は SoTA よりも優れたパフォーマンスを維持していることを示す。
また、KVキャッシュ圧縮、量子化、性能向上のための混合ランク代入など、$tt Att 3$の汎用性も示す。
論文 参考訳(メタデータ) (2025-05-19T10:29:32Z) - Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving [10.835583587146274]
本稿では,$underlineP$rogressive $underlineS$parse $underlineA$ttentionメカニズムを提案する。
アルゴリズムの革新とシステムの共同設計を統合し、大規模言語モデルにおいて高い推論精度と効率性の両方を達成する。
実験によると、PSAは注意計算のKVキャッシュ使用量を2.4$times$と8.8$times$に削減し、エンドツーエンドのサービススループットを1.4$times$と2.0$times$に向上する。
論文 参考訳(メタデータ) (2025-03-01T07:56:42Z) - Order-Optimal Projection-Free Algorithm for Adversarially Constrained Online Convex Optimization [29.705337940879705]
制約付きオンライン凸最適化(COCO)のための投影型アルゴリズムは、高次元設定においてスケーラビリティの課題に直面している。
本稿では,プロジェクションの必要性を排除しつつ,最先端の性能保証を実現するCOCOのプロジェクションフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-23T23:18:40Z) - Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。
我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文 参考訳(メタデータ) (2025-02-03T19:24:01Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。