Fugu-MT 論文翻訳(概要): Rectified Sparse Attention

論文の概要: Rectified Sparse Attention

arxiv url: http://arxiv.org/abs/2506.04108v1
Date: Wed, 04 Jun 2025 16:01:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.442181
Title: Rectified Sparse Attention
Title（参考訳）: rectified Sparse Attention
Authors: Yutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, Furu Wei,
Abstract要約: 効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
参考スコア（独自算出の注目度）: 61.7702154360081
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient long-sequence generation is a critical challenge for Large Language Models. While recent sparse decoding methods improve efficiency, they suffer from KV cache misalignment, where approximation errors accumulate and degrade generation quality. In this work, we propose Rectified Sparse Attention (ReSA), a simple yet effective method that combines block-sparse attention with periodic dense rectification. By refreshing the KV cache at fixed intervals using a dense forward pass, ReSA bounds error accumulation and preserves alignment with the pretraining distribution. Experiments across math reasoning, language modeling, and retrieval tasks demonstrate that ReSA achieves near-lossless generation quality with significantly improved efficiency. Notably, ReSA delivers up to 2.42$\times$ end-to-end speedup under decoding at 256K sequence length, making it a practical solution for scalable long-context inference. Code is available at https://aka.ms/ReSA-LM.
Abstract（参考訳）: 効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。最近のスパース復号法では効率が向上するが、KVキャッシュのミスアライメントに悩まされ、近似誤差が蓄積され、生成品質が低下する。本研究では,ブロックスパースアテンションと周期的密度補正を組み合わせた簡易かつ効果的な手法であるRectified Sparse Attention (ReSA)を提案する。密度の高いフォワードパスを使用して一定間隔でKVキャッシュをリフレッシュすることで、ReSAはエラーの蓄積を制限し、事前学習した分布と整合性を保つ。数学推論、言語モデリング、検索タスクにわたる実験により、ReSAは効率を大幅に改善し、ほぼロスレスな生成品質を達成することを示した。 ReSAは最大2.42$\times$ end-to-end speedupを256Kのシーケンス長でデコードし、拡張性のある長文推論のための実用的なソリューションである。コードはhttps://aka.ms/ReSA-LMで公開されている。

関連論文リスト

Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文参考訳（メタデータ） (2026-01-25T17:36:04Z)
Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。 TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文参考訳（メタデータ） (2025-12-10T01:54:57Z)
Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。 FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文参考訳（メタデータ） (2025-09-30T21:28:04Z)
Retrospective Sparse Attention for Efficient Long-Context Generation [5.562294018150909]
RetroAttentionは、後続の復号ステップから新たに到着したKVエントリを使用して、過去の注意出力を遡及的に更新する。これは固定アテンション・アウトプットのパラダイムを破り、事前近似の継続的な修正を可能にする。実験により、RetroAttention は最先端(SOTA) KV 圧縮法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-08-12T15:11:47Z)
LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
Efficient Pretraining Length Scaling [21.4715211093876]
本稿では,事前学習時に効率よく長さのスケーリングを可能にする新しいフレームワークであるParallel Hidden Decoding Transformer(textitPHD-Transformer)を提案する。 textitPHD-Transformerは、オリジナルのトークンと隠された復号トークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを実現している。
論文参考訳（メタデータ） (2025-04-21T09:41:26Z)
LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
投機的復号化は、大規模言語モデルにおける自己回帰復号化の高推論遅延を軽減するための有望な手法となっている。その約束にもかかわらず、LLMにおける投機的復号化の効果的な適用は、まだ3つの重要な課題に直面している。これらの課題に対処することで、長期コンテキスト設定における投機的復号化の性能を向上させる。
論文参考訳（メタデータ） (2025-02-24T18:53:31Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文参考訳（メタデータ） (2024-06-17T18:34:58Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。