論文の概要: Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models
- arxiv url: http://arxiv.org/abs/2601.15305v1
- Date: Mon, 12 Jan 2026 20:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.84409
- Title: Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models
- Title(参考訳): Gated Sparse Attention:長期言語モデルに対する計算効率と訓練安定性の併用
- Authors: Alfred Shen, Aaron Shen,
- Abstract要約: Gated Sparse Attention (GSA)はスパースとゲートの双方の利点を実現するアーキテクチャである。
GSAは、有界で解釈可能な選択スコアを生成するシグモイドアクティベーションを備えたゲート雷インデクサを組み込んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The computational burden of attention in long-context language models has motivated two largely independent lines of work: sparse attention mechanisms that reduce complexity by attending to selected tokens, and gated attention variants that improve training sta-bility while mitigating the attention sink phenomenon. We observe that these approaches address complementary weaknesses and propose Gated Sparse Attention (GSA), an architecture that realizes the benefits of both. GSA incorporates a gated lightning indexer with sigmoid activations that produce bounded, interpretable selection scores, an adaptive sparsity controller that modulates the number of attended tokens based on local uncertainty, and dual gating at the value and output stages. We establish theoretical foundations for the approach, including complexity analysis, expressiveness results, and convergence guarantees. In experiments with 1.7B parameter models trained on 400B tokens, GSA matches the efficiency of sparse-only baselines (12-16x speedup at 128K context) while achieving the quality gains associated with gated attention: perplexity improves from 6.03 to 5.70, RULER scores at 128K context nearly double, and attention to the first token, a proxy for attention sinks, drops from 47% to under 4%. Training stability improves markedly, with loss spikes reduced by 98%.
- Abstract(参考訳): 長文言語モデルにおける注意の計算的負担は、選択されたトークンへの参加によって複雑さを減少させるスパース・アテンション・メカニズムと、注意シンク現象を緩和しながらトレーニングのスタビリティを向上させるアテンション・バリアントの2つの独立した作業ラインを動機付けている。
これらの手法は相補的な弱点に対処し、両方の利点を実現するアーキテクチャであるGated Sparse Attention (GSA)を提案する。
GSAは、有界で解釈可能な選択スコアを生成するシグモイドアクティベーションを備えたゲート型雷インデクサと、局所不確実性に基づいて出席トークンの数を変調する適応型スパーシティコントローラと、値と出力段階における2つのゲーティングを備えている。
我々は,複雑性解析,表現性結果,収束保証など,このアプローチの理論的基盤を確立する。
400Bトークンでトレーニングされた1.7Bパラメータモデルによる実験では、GSAはスパースのみのベースライン(12-16倍のスピードアップ、128Kコンテキスト)の効率と、ゲートアテンションに関連する品質向上を実現している。
訓練の安定性は著しく改善され、損失は98%減少した。
関連論文リスト
- D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
論文 参考訳(メタデータ) (2025-12-22T14:42:31Z) - ETTRL: Balancing Exploration and Exploitation in LLM Test-Time Reinforcement Learning Via Entropy Mechanism [10.913346263482786]
実験時間強化学習における探索・探索バランスを高めるためのエントロピーに基づくメカニズムを提案する。
ベースラインと比較すると、Llama3.1-8Bは1メートルでのパスの68%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2025-08-15T09:49:14Z) - DeltaLLM: A Training-Free Framework Exploiting Temporal Sparsity for Efficient Edge LLM Inference [19.987309147268586]
デルタLLMは、リソース制約エッジデバイス上での効率的なLCM推論を実現するために、注意パターンの時間的間隔を利用する訓練不要のフレームワークである。
我々は、エッジデバイスフレンドリーなBitNet-b1.58-2B-4TモデルとLlama3.2-1B-Instructモデルについて、様々な言語タスクで評価する。
論文 参考訳(メタデータ) (2025-07-25T18:23:18Z) - ASDA: Audio Spectrogram Differential Attention Mechanism for Self-Supervised Representation Learning [57.67273340380651]
実験の結果,ASDAモデルは複数のベンチマークでSOTA(State-of-the-art)性能を達成できた。
これらの結果は、ASDAの音声タスクにおける有効性を強調し、より広範なアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2025-07-03T14:29:43Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。