論文の概要: Scaling Linear Attention with Sparse State Expansion
- arxiv url: http://arxiv.org/abs/2507.16577v1
- Date: Tue, 22 Jul 2025 13:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.134532
- Title: Scaling Linear Attention with Sparse State Expansion
- Title(参考訳): スパース状態拡張による線形注意のスケーリング
- Authors: Yuqi Pan, Yongqi An, Zheng Li, Yuhong Chou, Ruijie Zhu, Xiaohui Wang, Mingxuan Wang, Jinqiao Wang, Guoqi Li,
- Abstract要約: トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。
本稿では,情報分類として状態更新を概念化し,線形注意のための行スパース更新定式化を提案する。
次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
- 参考スコア(独自算出の注目度): 58.161410995744596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture, despite its widespread success, struggles with long-context scenarios due to quadratic computation and linear memory growth. While various linear attention variants mitigate these efficiency constraints by compressing context into fixed-size states, they often degrade performance in tasks such as in-context retrieval and reasoning. To address this limitation and achieve more effective context compression, we propose two key innovations. First, we introduce a row-sparse update formulation for linear attention by conceptualizing state updating as information classification. This enables sparse state updates via softmax-based top-$k$ hard classification, thereby extending receptive fields and reducing inter-class interference. Second, we present Sparse State Expansion (SSE) within the sparse framework, which expands the contextual state into multiple partitions, effectively decoupling parameter size from state capacity while maintaining the sparse classification paradigm. Our design, supported by efficient parallelized implementations, yields effective classification and discriminative state representations. We extensively validate SSE in both pure linear and hybrid (SSE-H) architectures across language modeling, in-context retrieval, and mathematical reasoning benchmarks. SSE demonstrates strong retrieval performance and scales favorably with state size. Moreover, after reinforcement learning (RL) training, our 2B SSE-H model achieves state-of-the-art mathematical reasoning performance among small reasoning models, scoring 64.7 on AIME24 and 51.3 on AIME25, significantly outperforming similarly sized open-source Transformers. These results highlight SSE as a promising and efficient architecture for long-context modeling.
- Abstract(参考訳): Transformerアーキテクチャは、広く成功したにもかかわらず、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。
様々な線形アテンション変種は、コンテキストを固定サイズの状態に圧縮することでこれらの効率制約を緩和するが、コンテキスト内検索や推論といったタスクでは性能を低下させることが多い。
この制限に対処し、より効率的な文脈圧縮を実現するために、我々は2つの重要な革新を提案する。
まず、情報分類として状態更新を概念化し、線形注意のための行スパース更新定式化を導入する。
これにより、Softmaxベースのトップ$k$ハードな分類によるスパース状態の更新が可能になり、受信フィールドが拡張され、クラス間の干渉が軽減される。
次に、スパースフレームワーク内にスパース状態拡張(SSE)を導入し、コンテキスト状態を複数のパーティションに拡張し、スパース分類パラダイムを維持しながら、パラメータサイズを状態キャパシティから効果的に分離する。
我々の設計は、効率的な並列化実装によって支えられ、効果的な分類と差別的な状態表現をもたらす。
我々は、言語モデリング、文脈内検索、数学的推論ベンチマークにおいて、純粋線形およびハイブリッド(SSE-H)アーキテクチャの両方でSSEを広範囲に検証する。
SSEは、強い検索性能を示し、状態サイズに好適にスケールする。
さらに, 強化学習(RL)訓練後の2B SSE-Hモデルは, AIME24では64.7, AIME25では51.3, ほぼ同様の規模のオープンソーストランスフォーマーでは大幅に向上した。
これらの結果は、長期コンテキストモデリングのための有望かつ効率的なアーキテクチャとしてSSEを強調している。
関連論文リスト
- Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving [1.9508863993381267]
トランスフォーマーは、今日のLarge Language Models(LLM)の原動力であり、そのパフォーマンスと汎用性の基盤となっている。
これに対し、アルゴリズムコミュニティはステートスペースモデル(SSM)、線形アテンション、リカレントニューラルネットワーク(RNN)などの代替アーキテクチャを模索している。
本稿では,変圧器と変圧器後LLMの両方を統一的な枠組みで効率的にサポートするサービスシステムを提案する。
LLM最適化GPUとGPU+PIMシステムと比較して、Pimbaは最大3.2倍および2.1倍高いトークン生成スループットを達成する。
論文 参考訳(メタデータ) (2025-07-14T11:40:17Z) - Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文 参考訳(メタデータ) (2025-07-09T07:27:00Z) - Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。
RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。
また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文 参考訳(メタデータ) (2025-06-01T23:49:14Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - Pivoting Factorization: A Compact Meta Low-Rank Representation of Sparsity for Efficient Inference in Large Language Models [1.6385815610837167]
Pivoting Factorization (PIFA) は、任意の低ランク表現のコンパクトな形式を教師なしで学習する新しい低ランク表現である。
PIFAは24.2%のメモリ節約と24.6%の高速化を実現している。
MPIFAは、MとPIFAをエンドツーエンドのフレームワークに統合し、既存の低ランクプルーニング手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-31T12:36:31Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。