論文の概要: DySCO: Dynamic Attention-Scaling Decoding for Long-Context LMs
- arxiv url: http://arxiv.org/abs/2602.22175v1
- Date: Wed, 25 Feb 2026 18:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.946322
- Title: DySCO: Dynamic Attention-Scaling Decoding for Long-Context LMs
- Title(参考訳): DySCO:Long-Context LMのための動的アテンションスケーリングデコーディング
- Authors: Xi Ye, Wuwei Zhang, Fangcong Yin, Howard Yen, Danqi Chen,
- Abstract要約: 長文推論を改善するための新しい復号アルゴリズムであるDySCOを提案する。
DySCOは生成中の注意を動的に調整し、関連するコンテキストをよりよく活用する。
DySCOは、挑戦的な長期コンテキスト推論ベンチマークのパフォーマンスを継続的に改善する。
- 参考スコア(独自算出の注目度): 33.73060961870464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and reasoning over long contexts is a crucial capability for language models (LMs). Although recent models support increasingly long context windows, their accuracy often deteriorates as input length grows. In practice, models often struggle to keep attention aligned with the most relevant context throughout decoding. In this work, we propose DySCO, a novel decoding algorithm for improving long-context reasoning. DySCO leverages retrieval heads--a subset of attention heads specialized for long-context retrieval--to identify task-relevant tokens at each decoding step and explicitly up-weight them. By doing so, DySCO dynamically adjusts attention during generation to better utilize relevant context. The method is training-free and can be applied directly to any off-the-shelf LMs. Across multiple instruction-tuned and reasoning models, DySCO consistently improves performance on challenging long-context reasoning benchmarks, yielding relative gains of up to 25% on MRCR and LongBenchV2 at 128K context length with modest additional compute. Further analysis highlights the importance of both dynamic attention rescaling and retrieval-head-guided selection for the effectiveness of the method, while providing interpretability insights into decoding-time attention behavior. Our code is available at https://github.com/princeton-pli/DySCO.
- Abstract(参考訳): 長いコンテキストに対する理解と推論は言語モデル(LM)にとって重要な能力である。
最近のモデルは、ますます長いコンテキストウィンドウをサポートするが、入力長が大きくなるにつれて、その精度は劣化する。
実際には、モデルはデコーディングを通して最も関連性の高いコンテキストに注意を向けるのに苦労することが多い。
本研究では、長文推論を改善するための新しい復号アルゴリズムであるDySCOを提案する。
DySCOは、長文検索に特化したアテンションヘッドのサブセットである検索ヘッドを活用し、各デコードステップでタスク関連トークンを識別し、明示的にアップウェイトする。
そうすることによって、DySCOは生成中の注意を動的に調整し、関連するコンテキストをよりよく活用する。
この方法はトレーニングフリーであり、市販のLMに直接適用することができる。
複数の命令調整および推論モデル全体で、DySCOは挑戦的な長期コンテキスト推論ベンチマークのパフォーマンスを継続的に改善し、128Kのコンテキスト長でMRCRとLongBenchV2で25%の相対的なゲインを得る。
さらに解析は、動的注意再スケーリングと検索ヘッド誘導選択の両方の重要性を強調し、復号時の注意行動に対する解釈可能性の洞察を提供する。
私たちのコードはhttps://github.com/princeton-pli/DySCO.comで公開されています。
関連論文リスト
- LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards [57.993003392037174]
LongRは動的"Think-and-Read"メカニズムを統合することで、長時間コンテキストのパフォーマンスを向上させるフレームワークである。
LongRは様々なRLアルゴリズムのパフォーマンスを継続的に向上する。
論文 参考訳(メタデータ) (2026-02-05T15:26:47Z) - LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding [27.856769454125573]
LLM(Long-context Large Language Model)は、デコード中に急速に拡大するキーバリューキャッシュという、重要なボトルネックを露呈する。
我々は,微細なハイブリッドヘッドアテンション機構を中心とした効率的な復号法であるLycheeDecodeを提案する。
我々はLycheeDecodeが、フルアテンションベースラインに匹敵する、時には超越した生成品質を達成することを実証した。
論文 参考訳(メタデータ) (2026-02-04T13:34:12Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。
LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - SEAL: Scaling to Emphasize Attention for Long-Context Retrieval [8.805524738976075]
我々は、長期文脈検索(SEAL)における注意を強調するためのスケーリングと呼ばれる新しいアプローチを導入する。
我々は、特定の注意ヘッドが長文検索と密接に結びついていることを観察し、検索スコアと正あるいは負の相関を示す。
本稿では、これらのヘッドを強調するために生成されたデータを活用する学習ベースのメカニズムを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:09:39Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。