論文の概要: Scaling Context Requires Rethinking Attention
- arxiv url: http://arxiv.org/abs/2507.04239v1
- Date: Sun, 06 Jul 2025 04:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.081465
- Title: Scaling Context Requires Rethinking Attention
- Title(参考訳): コンテキストのスケーリングは意識を再考する必要がある
- Authors: Carles Gelada, Jacob Buckman, Sean Zhang, Txus Bach,
- Abstract要約: 変換器もサブクワッドラティックアーキテクチャも、長いシーケンス長でのトレーニングには適していない、と我々は主張する。
本稿では,パラメータと独立に状態サイズを調整可能な線形コストシーケンスモデリングのためのアーキテクチャ層であるパワーアテンションを紹介する。
パワーアテンションの文脈内学習実験により,これらのモデルが長期学習における指数的アテンションと線形アテンションの両方を支配していることが示された。
- 参考スコア(独自算出の注目度): 5.923968936360167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that neither transformers nor sub-quadratic architectures are well suited to training at long sequence lengths: the cost of processing the context is too expensive in the former, too inexpensive in the latter. Approaches such as sliding window attention which reduce the cost-per-token of a transformer impair in-context learning, and so are also unsuitable. To address these limitations, we introduce power attention, an architectural layer for linear-cost sequence modeling whose state size can be adjusted independently of parameters, unlocking the advantages of linear attention on practical domains. We develop and open-source a set of GPU kernels for efficient power attention, identifying a novel pattern of operation fusion to avoid memory and bandwidth bottlenecks. Our experiments on the in-context learning of power attention shows that these models dominate both exponential attention and linear attention at long-context training.
- Abstract(参考訳): トランスフォーマーもサブクワッドラティックアーキテクチャも長いシーケンス長でのトレーニングには適していない、と我々は主張する。
変圧器のトーケン当たりのコストを低減させるスライディングウィンドウアテンションのようなアプローチは、文脈内学習を損なうなど、不適当である。
これらの制約に対処するために、我々は、パラメータから独立して状態サイズを調整できる線形コストシーケンスモデリングのためのアーキテクチャ層であるパワーアテンションを導入し、実用的なドメインに対する線形アテンションの利点を解放する。
我々は、メモリや帯域幅のボトルネックを回避するために、演算フュージョンの新たなパターンを特定し、効率的なパワーアテンションのためのGPUカーネルのセットを開発し、オープンソース化する。
パワーアテンションの文脈内学習実験により,これらのモデルが長期学習における指数的アテンションと線形アテンションの両方を支配していることが示された。
関連論文リスト
- Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。
特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。
ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文 参考訳(メタデータ) (2025-06-05T08:44:51Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。