Fugu-MT 論文翻訳(概要): Long-Context Generalization with Sparse Attention

論文の概要: Long-Context Generalization with Sparse Attention

arxiv url: http://arxiv.org/abs/2506.16640v1
Date: Thu, 19 Jun 2025 22:43:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.280347
Title: Long-Context Generalization with Sparse Attention
Title（参考訳）: スパース注意による長期的一般化
Authors: Pavlo Vasylenko, Marcos Treviso, André F. T. Martins,
Abstract要約: トランスフォーマーベースのアーキテクチャは、伝統的に注意重みを計算するためにソフトマックスを使用している。シーケンス長が増加するにつれて、非情報的トークンは注意確率の質量を蓄積し、分散と表現的崩壊をもたらす。本稿では,$alpha$-entmax を用いて注意機構を疎結合にすることで,これらの問題を回避できることを示す。
参考スコア（独自算出の注目度）: 21.312711979288004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based architectures traditionally employ softmax to compute attention weights, which produces dense distributions over all tokens in a sequence. While effective in many settings, this density has been shown to be detrimental for tasks that demand precise focus on fixed-size patterns: as sequence length increases, non-informative tokens accumulate attention probability mass, leading to dispersion and representational collapse. We show in this paper that sparse attention mechanisms using $\alpha$-entmax can avoid these issues, due to their ability to assign exact zeros to irrelevant tokens. Furthermore, we introduce Adaptive-Scalable Entmax (ASEntmax), which endows $\alpha$-entmax with a learnable temperature parameter, allowing the attention distribution to interpolate between sparse (pattern-focused) and dense (softmax-like) regimes. Finally, we show that the ability to locate and generalize fixed-size patterns can be further improved through a careful design of position encodings, which impacts both dense and sparse attention methods. By integrating ASEntmax into standard transformer layers alongside proper positional encodings, we show that our models greatly outperform softmax, scalable softmax, and fixed-temperature $\alpha$-entmax baselines on long-context generalization.
Abstract（参考訳）: トランスフォーマーベースのアーキテクチャは伝統的に、注意重みを計算するためにソフトマックスを使用しており、シーケンス内の全てのトークンに密集した分布を生成する。多くの環境では有効であるが、この密度は、列長が増加するにつれて非情報的トークンが注意確率の質量を蓄積し、分散と表現的崩壊をもたらすような、固定サイズのパターンに正確に焦点を絞るタスクに対して有害であることが示されている。本稿では,$\alpha$-entmax を用いたスパースアテンション機構は,無関係なトークンに正確なゼロを割り当てる能力のため,これらの問題を回避することができることを示す。さらに,学習可能な温度パラメータで$\alpha$-entmaxを付与するAdaptive-Scalable Entmax(ASEntmax)を導入し,注意分布をスパース(パターン中心)と密(ソフトマックス様)との間を補間する。最後に, 位置符号化を慎重に設計することで, 固定サイズパターンの特定と一般化がさらに向上し, 重み付けと疎み付けの両方に影響を及ぼすことを示す。 ASEntmaxを標準的なトランスフォーマー層と適切な位置エンコーディングと組み合わせることで、我々のモデルは、長文の一般化によるソフトマックス、スケーラブルなソフトマックス、固定温度の$\alpha$-entmaxベースラインを大きく上回ることを示す。

関連論文リスト

On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective [3.1044138971639743]
ソフトマックス注意の主な欠点は、シーケンス長に関する二次記憶要件と計算複雑性である。ソフトマックスの非線形性を置き換えることで、ソフトマックスの2次ボトルネックを回避するために、線形アテンションや同様の手法が導入された。本研究は,線形アテンションがソフトマックスアテンションの繰り返し形式を導出することにより,ソフトマックスアテンションの近似であることを示す。
論文参考訳（メタデータ） (2025-07-31T15:10:03Z)
Rectifying Magnitude Neglect in Linear Attention [57.097694292570885]
リニアアテンションは、標準的なSoftmaxアテンションに比べて大幅にパフォーマンスが低下する。我々は,線形注意の計算を改良し,クエリの規模を完全に組み込むMagnitude-Aware Linear Attention (MALA)を提案する。
論文参考訳（メタデータ） (2025-07-01T11:49:05Z)
Unpacking Softmax: How Temperature Drives Representation Collapse, Compression, and Generalization [15.458541841436967]
モデルの表現を形作る際に,ソフトマックス関数が果たす重要な役割について検討する。ランク欠陥バイアスという概念は、ソフトマックスに基づくディープネットワークがクラス数よりもはるかに低いランクの解を見出す現象である。本研究では,ソフトマックスのダイナミックスを利用して圧縮表現を学習するか,あるいはアウト・オブ・ディストリビューションデータ上での性能を向上させるかを示す。
論文参考訳（メタデータ） (2025-06-02T11:38:10Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
Self-Adjust Softmax [62.267367768385434]
ソフトマックス関数はトランスフォーマーアテンションにおいて重要であり、アテンションスコアの各行を1にまとめて正規化する。この問題に対処するために、$softmax(x)$を$x cdot Softmax(x)$に修正し、その正規化された変種である$frac(x - min(x_min,0))max(0,x_max)-min(x_min,0)cdot softmax(x)$を変更することを提案する。
論文参考訳（メタデータ） (2025-02-25T15:07:40Z)
Scalable-Softmax Is Superior for Attention [0.0]
トランスフォーマーベースの言語モデルは、注意点を計算するためにSoftmaxに依存している。 SSMaxは入力ベクトルサイズが異なるシナリオでSoftmaxを置き換える。 SSMaxを用いたモデルは、事前訓練中に損失の削減を高速化するだけでなく、長期の文脈における性能を大幅に改善する。
論文参考訳（メタデータ） (2025-01-31T18:55:35Z)
Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文参考訳（メタデータ） (2025-01-23T07:21:08Z)
MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文参考訳（メタデータ） (2024-06-03T10:51:43Z)
CWF: Consolidating Weak Features in High-quality Mesh Simplification [50.634070540791555]
これらの要件をすべて同時に検討するスムーズな機能を提案する。この官能基は、通常の異方性項と、セトロイド型ボロノイテッセルレーション(CVT)エネルギー項を含む。
論文参考訳（メタデータ） (2024-04-24T05:37:17Z)
r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文参考訳（メタデータ） (2023-04-11T14:28:29Z)
Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文参考訳（メタデータ） (2022-07-05T03:08:27Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)
Smoothing and Shrinking the Sparse Seq2Seq Search Space [2.1828601975620257]
entmaxベースのモデルは、猫を効果的に解決する。また、Fenchel-Young損失の広い家族にラベルスムーシングを一般化する。得られたラベルスムーズなエントマックス損失モデルにより,多言語グラフ-音素変換の新たな技術が確立された。
論文参考訳（メタデータ） (2021-03-18T14:45:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。