論文の概要: SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers
- arxiv url: http://arxiv.org/abs/2509.00935v1
- Date: Sun, 31 Aug 2025 17:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.471137
- Title: SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers
- Title(参考訳): SCOUT:変圧器の最適使用のためのセグメント圧縮によるサブクアドラティックアテンションに向けて
- Authors: Aref Jafari, Yuhe Fan, Benyamin Jamialahmadi, Parsa Farinneya, Boxing Chen, Marzieh S. Tahaei,
- Abstract要約: 固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。
SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
- 参考スコア(独自算出の注目度): 15.142822497807236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have demonstrated strong performance across a wide range of sequence modeling tasks, but their quadratic attention complexity limits scalability to long sequences. Linear models such as Mamba and sliding-window attention (SWA) address this by mixing tokens through recurrent or localized operations with fixed-size memory, achieving efficient inference. However, these methods risk degrading performance on long sequences due to their inability to retain detailed information from distant tokens. We propose SCOUT (Segment Compression for Optimized Utility in Transformers), a hybrid architecture that compresses tokens locally within fixed-size segments and applies attention only over these compressed representations. Each token embedding is first enriched via a linear local mixer, Mamba or SWA, that integrates recent context. Then, instead of attending to all previous tokens, each token sparsely attends to a small number of compressed checkpoint tokens that summarize the input history. This design retains much of the expressivity of full attention while substantially reducing the computational and memory cost. By attending to compressed history rather than all previous tokens, SCOUT incurs slightly higher memory than purely linear models, but its growth rate remains sub-quadratic and far more scalable than that of full Transformers. We analyze SCOUT's computational and memory efficiency and evaluate it empirically on long-context language modeling and reasoning tasks. SCOUT with both Mamba and SWA mixers outperforms strong long-sequence baselines under the same computational budget, matches full-attention Transformers on language modeling and common-sense reasoning tasks at 400M and 1.3B scales. Moreover, our SCOUT achieves higher end-to-end throughput than SOTA models, while delivering comparable results on long sequence benchmarks.
- Abstract(参考訳): トランスフォーマーは、広範囲のシーケンスモデリングタスクに対して強い性能を示してきたが、その二次的な注意の複雑さは、スケーラビリティを長いシーケンスに制限している。
Mamba や Slide-Window attention (SWA) のような線形モデルは、トークンを固定サイズのメモリで繰り返しまたは局所化された操作によって混合し、効率的な推論を実現することでこの問題に対処する。
しかし,これらの手法は,遠隔トークンからの詳細な情報を保持することができないため,長いシーケンスでの性能低下を招いた。
SCOUT(Segment Compression for Optimized Utility in Transformers)は,固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャである。
各トークンの埋め込みは、まず、最近のコンテキストを統合するリニアローカルミキサー、MambaまたはSWAを介して濃縮される。
そして、すべての前のトークンに出席する代わりに、各トークンは、入力履歴を要約する少数の圧縮されたチェックポイントトークンにわずかに出席する。
この設計は、計算コストとメモリコストを大幅に削減しつつ、完全な注意力の表現性を保っている。
従来のすべてのトークンよりも圧縮された履歴に出席することで、SCOUTは純粋に線形モデルよりもわずかに高いメモリを発生させるが、その成長速度はフルトランスフォーマーよりもサブクワッドラティックであり、はるかにスケーラブルである。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
SCOUT と Mamba と SWA のミキサーは、同じ計算予算の下で強いロングシーケンスベースラインを上回り、言語モデリングと4M と 1.3B スケールの常識推論タスクのフルアテンショントランスフォーマーにマッチする。
さらに, SCOUTはSOTAモデルよりも高いエンドツーエンドスループットを実現し, ロングシーケンスベンチマークでは同等の結果が得られた。
関連論文リスト
- Compact Recurrent Transformer with Persistent Memory [16.48606806238812]
Transformerアーキテクチャは多くの言語処理と視覚タスクで大きな成功を収めている。
高速なCRT(Compact Recurrent Transformer)を提案する。
CRTは、短いローカルセグメントを処理する浅層トランスフォーマーモデルとリカレントニューラルネットワークを組み合わせて、単一の永続メモリベクトルを圧縮および管理する。
我々は,WordPTBとWikiText-103のCRTとToyota Smarthomeのビデオデータセットの分類を行った。
論文 参考訳(メタデータ) (2025-05-02T00:11:44Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - Attamba: Attending To Multi-Token States [6.5676809841642125]
Attambaは、状態空間モデルを用いてトークンの塊を圧縮する新しいアーキテクチャである。
変換器のキーと値のプロジェクションをSSMに置き換えることで、モデルの品質が向上し、フレキシブルなトークンチャンキングが可能になる。
アタンバは可変長のチャンク列に注意を向けることができ、二次スケーリングと線形スケーリングのスムーズな遷移を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:52:06Z) - Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題
Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。
我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。
我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-24T09:25:37Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。