論文の概要: Lil: Less is Less When Applying Post-Training Sparse-Attention Algorithms in Long-Decode Stage
- arxiv url: http://arxiv.org/abs/2601.03043v1
- Date: Tue, 06 Jan 2026 14:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.971794
- Title: Lil: Less is Less When Applying Post-Training Sparse-Attention Algorithms in Long-Decode Stage
- Title(参考訳): Lil: 長いコーディング段階におけるトレーニング後のスパースアテンションアルゴリズムの適用
- Authors: Junhao Hu, Fangze Li, Mingtao Xu, Feifan Meng, Shiju Zhao, Tiancheng Hu, Ting Peng, Anmin Liu, Wenrui Huang, Chenxu Liu, Ziyue Hua, Tao Xie,
- Abstract要約: スパースアテンションは、パラドックス的にエンドツーエンドの複雑さを増大させる可能性がある。
本稿では,情報損失が情報ゲインを超える閾値を検出する早期探索アルゴリズムを提案する。
我々のアルゴリズムは、推論集約ベンチマークで2%未満の限界精度でトークン消費を最大90%削減する。
- 参考スコア(独自算出の注目度): 13.452927559252286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate strong capabilities across a wide range of complex tasks and are increasingly deployed at scale, placing significant demands on inference efficiency. Prior work typically decomposes inference into prefill and decode stages, with the decode stage dominating total latency. To reduce time and memory complexity in the decode stage, a line of work introduces sparse-attention algorithms. In this paper, we show, both empirically and theoretically, that sparse attention can paradoxically increase end-to-end complexity: information loss often induces significantly longer sequences, a phenomenon we term ``Less is Less'' (Lil). To mitigate the Lil problem, we propose an early-stopping algorithm that detects the threshold where information loss exceeds information gain during sparse decoding. Our early-stopping algorithm reduces token consumption by up to 90% with a marginal accuracy degradation of less than 2% across reasoning-intensive benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い複雑なタスクにまたがって強力な能力を示し、より大規模にデプロイされるようになり、推論効率に大きな需要が生じる。
以前の作業は通常、推論をプリフィルとデコードステージに分解し、デコードステージが全レイテンシを支配します。
デコード段階での時間とメモリの複雑さを軽減するために、一連の作業はスパースアテンションアルゴリズムを導入している。
本稿では,情報損失が極めて長いシーケンスを誘導する現象である'Less is Less' (Lil) を経験的かつ理論的に,スパース・アテンションがパラドックス的にエンドツーエンドの複雑性を増大させることを示す。
本稿では,情報損失が情報ゲインを超える閾値を検出するアルゴリズムを提案する。
我々のアーリーストッピングアルゴリズムは、推論集約ベンチマークで2%未満の限界精度でトークンの消費を最大90%削減する。
関連論文リスト
- Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Fast correlated decoding of transversal logical algorithms [67.01652927671279]
大規模計算には量子エラー補正(QEC)が必要であるが、かなりのリソースオーバーヘッドが発生する。
近年の進歩により、論理ゲートからなるアルゴリズムにおいて論理キュービットを共同で復号化することにより、症候群抽出ラウンドの数を削減できることが示されている。
ここでは、回路を介して伝播する関連する論理演算子製品を直接復号することで、回路の復号化の問題を修正する。
論文 参考訳(メタデータ) (2025-05-19T18:00:00Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。
実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文 参考訳(メタデータ) (2024-12-09T04:27:03Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Accelerated Doubly Stochastic Gradient Algorithm for Large-scale
Empirical Risk Minimization [23.271890743506514]
本稿では,学習課題に対する大規模経験的リスク最小化問題を解くために,新たな高速化マルチモーメンタム手法を用いた二重アルゴリズムを提案する。
絶対的に優れた収束率を享受しながら、各イテレーションにおいて、そのようなアルゴリズムはサンプルの小さなバッチにのみアクセスし、変数座標の小さなブロックを更新する。
論文 参考訳(メタデータ) (2023-04-23T14:21:29Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - Communication-efficient Variance-reduced Stochastic Gradient Descent [0.0]
通信効率のよい分散最適化の問題を考える。
特に、分散還元勾配に着目し、通信効率を高めるための新しいアプローチを提案する。
実データセットの包括的理論的および数値解析により、我々のアルゴリズムは通信の複雑さを95%減らし、ほとんど顕著なペナルティを伴わないことが明らかとなった。
論文 参考訳(メタデータ) (2020-03-10T13:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。