論文の概要: Critical attention scaling in long-context transformers
- arxiv url: http://arxiv.org/abs/2510.05554v1
- Date: Tue, 07 Oct 2025 03:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.087817
- Title: Critical attention scaling in long-context transformers
- Title(参考訳): 長文変圧器における臨界注意スケーリング
- Authors: Shi Chen, Zhengjiang Lin, Yury Polyanskiy, Philippe Rigollet,
- Abstract要約: 注意スケーリングの効果を拡大するモデルを解析する。
このモデルでは、注意はスケーリング係数$beta_n$によって支配される相転移を示す。
我々の主な成果は、クリティカルスケーリングの$beta_n asymp log n$を特定し、YarRNとQwenにおける注意スケーリングの厳密な正当化を提供します。
- 参考スコア(独自算出の注目度): 23.651628732055062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models scale to longer contexts, attention layers suffer from a fundamental pathology: attention scores collapse toward uniformity as context length $n$ increases, causing tokens to cluster excessively, a phenomenon known as rank-collapse. While $\textit{attention scaling}$ effectively addresses this deficiency by rescaling attention scores with a polylogarithmic factor $\beta_n$, theoretical justification for this approach remains lacking. We analyze a simplified yet tractable model that magnifies the effect of attention scaling. In this model, attention exhibits a phase transition governed by the scaling factor $\beta_n$: insufficient scaling collapses all tokens to a single direction, while excessive scaling reduces attention to identity, thereby eliminating meaningful interactions between tokens. Our main result identifies the critical scaling $\beta_n \asymp \log n$ and provides a rigorous justification for attention scaling in YaRN and Qwen, clarifying why logarithmic scaling maintains sparse, content-adaptive attention at large context lengths.
- Abstract(参考訳): 大きな言語モデルが長いコンテキストにスケールするにつれて、注意層は基本的な病理に悩まされる: 注意スコアは、コンテキストの長さが増加するにつれて均一性に向かって崩壊し、トークンが過剰にクラスタ化される。
$\textit{attention scaling}$は、注意スコアをポリ対数係数$\beta_n$で再スケーリングすることで、この欠陥に効果的に対処するが、このアプローチの理論的正当化は依然として不十分である。
我々は、注意スケーリングの効果を拡大する単純化された、かつトラクタブルなモデルを分析する。
このモデルでは、注意はスケーリング係数$\beta_n$によって支配される相転移を示す: 不十分なスケーリングは全てのトークンを単一の方向に崩壊させ、一方過度のスケーリングはアイデンティティへの注意を減少させ、トークン間の意味のある相互作用を排除する。
我々の主な成果は、臨界スケーリング$\beta_n \asymp \log n$を特定し、YaRNとQwenにおける注意スケーリングの厳密な正当化を提供し、対数スケーリングが大きなコンテキスト長でスパースでコンテンツ適応的な注意を維持する理由を明らかにした。
関連論文リスト
- Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
本稿では,2段階のプロセスとして注目する新しい設計原則を提案する。
第一段階では、標準指数関数をより数値的に安定なソフトプラス活性化に置き換える。
第2段階では、注意分布を鋭くする再重み付け機構を導入する。
論文 参考訳(メタデータ) (2025-01-23T07:21:08Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Long Sequence Modeling with Attention Tensorization: From Sequence to Tensor Learning [20.51822826798248]
本稿では、長い入力列をコンパクトなテンソル表現にテンソル化し、各変換次元に注意を向けることで、注意領域を拡大することを提案する。
提案手法は,トークンの依存関係をマルチホップアテンションプロセスとして符号化し,フルアテンションのクロネッカー分解と等価であることを示す。
論文 参考訳(メタデータ) (2024-10-28T11:08:57Z) - Scaling Stick-Breaking Attention: An Efficient Implementation and In-depth Study [38.492552119793]
大規模環境下での突破プロセスに基づく別の注意機構について検討する。
従来のソフトマックス方式のアテンション機構をスティック破りのアテンションに置き換えることの意味について検討した。
現在のSoftmax+RoPEアテンションシステムのドロップイン代替として使用すると、スティック破りのアテンションが現在の手法と競合することがわかった。
論文 参考訳(メタデータ) (2024-10-23T15:51:13Z) - Agent Attention: On the Integration of Softmax and Linear Attention [70.06472039237354]
本稿では,計算効率と表現力のバランスをとるために,新しい注意パラダイムであるエージェント注意(Agent Attention)を提案する。
提案するエージェントアテンションは,線形アテンションの一般化形式と等価であることを示す。
特に、エージェントの注意は高解像度のシナリオにおいて顕著な性能を示しており、その線形の注意の性質に依拠している。
論文 参考訳(メタデータ) (2023-12-14T16:26:29Z) - Faster Causal Attention Over Large Sequences Through Sparse Flash
Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。
変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文 参考訳(メタデータ) (2023-06-01T21:33:59Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。