論文の概要: Long-Context Generalization with Sparse Attention
- arxiv url: http://arxiv.org/abs/2506.16640v1
- Date: Thu, 19 Jun 2025 22:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.280347
- Title: Long-Context Generalization with Sparse Attention
- Title(参考訳): スパース注意による長期的一般化
- Authors: Pavlo Vasylenko, Marcos Treviso, André F. T. Martins,
- Abstract要約: トランスフォーマーベースのアーキテクチャは、伝統的に注意重みを計算するためにソフトマックスを使用している。
シーケンス長が増加するにつれて、非情報的トークンは注意確率の質量を蓄積し、分散と表現的崩壊をもたらす。
本稿では,$alpha$-entmax を用いて注意機構を疎結合にすることで,これらの問題を回避できることを示す。
- 参考スコア(独自算出の注目度): 21.312711979288004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based architectures traditionally employ softmax to compute attention weights, which produces dense distributions over all tokens in a sequence. While effective in many settings, this density has been shown to be detrimental for tasks that demand precise focus on fixed-size patterns: as sequence length increases, non-informative tokens accumulate attention probability mass, leading to dispersion and representational collapse. We show in this paper that sparse attention mechanisms using $\alpha$-entmax can avoid these issues, due to their ability to assign exact zeros to irrelevant tokens. Furthermore, we introduce Adaptive-Scalable Entmax (ASEntmax), which endows $\alpha$-entmax with a learnable temperature parameter, allowing the attention distribution to interpolate between sparse (pattern-focused) and dense (softmax-like) regimes. Finally, we show that the ability to locate and generalize fixed-size patterns can be further improved through a careful design of position encodings, which impacts both dense and sparse attention methods. By integrating ASEntmax into standard transformer layers alongside proper positional encodings, we show that our models greatly outperform softmax, scalable softmax, and fixed-temperature $\alpha$-entmax baselines on long-context generalization.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは伝統的に、注意重みを計算するためにソフトマックスを使用しており、シーケンス内の全てのトークンに密集した分布を生成する。
多くの環境では有効であるが、この密度は、列長が増加するにつれて非情報的トークンが注意確率の質量を蓄積し、分散と表現的崩壊をもたらすような、固定サイズのパターンに正確に焦点を絞るタスクに対して有害であることが示されている。
本稿では,$\alpha$-entmax を用いたスパースアテンション機構は,無関係なトークンに正確なゼロを割り当てる能力のため,これらの問題を回避することができることを示す。
さらに,学習可能な温度パラメータで$\alpha$-entmaxを付与するAdaptive-Scalable Entmax(ASEntmax)を導入し,注意分布をスパース(パターン中心)と密(ソフトマックス様)との間を補間する。
最後に, 位置符号化を慎重に設計することで, 固定サイズパターンの特定と一般化がさらに向上し, 重み付けと疎み付けの両方に影響を及ぼすことを示す。
ASEntmaxを標準的なトランスフォーマー層と適切な位置エンコーディングと組み合わせることで、我々のモデルは、長文の一般化によるソフトマックス、スケーラブルなソフトマックス、固定温度の$\alpha$-entmaxベースラインを大きく上回ることを示す。
関連論文リスト
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Self-Adjust Softmax [62.267367768385434]
ソフトマックス関数はトランスフォーマーアテンションにおいて重要であり、アテンションスコアの各行を1にまとめて正規化する。
この問題に対処するために、$softmax(x)$を$x cdot Softmax(x)$に修正し、その正規化された変種である$frac(x - min(x_min,0))max(0,x_max)-min(x_min,0)cdot softmax(x)$を変更することを提案する。
論文 参考訳(メタデータ) (2025-02-25T15:07:40Z) - Scalable-Softmax Is Superior for Attention [0.0]
トランスフォーマーベースの言語モデルは、注意点を計算するためにSoftmaxに依存している。
SSMaxは入力ベクトルサイズが異なるシナリオでSoftmaxを置き換える。
SSMaxを用いたモデルは、事前訓練中に損失の削減を高速化するだけでなく、長期の文脈における性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-31T18:55:35Z) - Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。
本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。
我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文 参考訳(メタデータ) (2025-01-23T07:21:08Z) - MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。
入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:43Z) - CWF: Consolidating Weak Features in High-quality Mesh Simplification [50.634070540791555]
これらの要件をすべて同時に検討するスムーズな機能を提案する。
この官能基は、通常の異方性項と、セトロイド型ボロノイテッセルレーション(CVT)エネルギー項を含む。
論文 参考訳(メタデータ) (2024-04-24T05:37:17Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。