Fugu-MT 論文翻訳(概要): DySCO: Dynamic Attention-Scaling Decoding for Long-Context LMs

論文の概要: DySCO: Dynamic Attention-Scaling Decoding for Long-Context LMs

arxiv url: http://arxiv.org/abs/2602.22175v1
Date: Wed, 25 Feb 2026 18:21:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.946322
Title: DySCO: Dynamic Attention-Scaling Decoding for Long-Context LMs
Title（参考訳）: DySCO:Long-Context LMのための動的アテンションスケーリングデコーディング
Authors: Xi Ye, Wuwei Zhang, Fangcong Yin, Howard Yen, Danqi Chen,
Abstract要約: 長文推論を改善するための新しい復号アルゴリズムであるDySCOを提案する。 DySCOは生成中の注意を動的に調整し、関連するコンテキストをよりよく活用する。 DySCOは、挑戦的な長期コンテキスト推論ベンチマークのパフォーマンスを継続的に改善する。
参考スコア（独自算出の注目度）: 33.73060961870464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding and reasoning over long contexts is a crucial capability for language models (LMs). Although recent models support increasingly long context windows, their accuracy often deteriorates as input length grows. In practice, models often struggle to keep attention aligned with the most relevant context throughout decoding. In this work, we propose DySCO, a novel decoding algorithm for improving long-context reasoning. DySCO leverages retrieval heads--a subset of attention heads specialized for long-context retrieval--to identify task-relevant tokens at each decoding step and explicitly up-weight them. By doing so, DySCO dynamically adjusts attention during generation to better utilize relevant context. The method is training-free and can be applied directly to any off-the-shelf LMs. Across multiple instruction-tuned and reasoning models, DySCO consistently improves performance on challenging long-context reasoning benchmarks, yielding relative gains of up to 25% on MRCR and LongBenchV2 at 128K context length with modest additional compute. Further analysis highlights the importance of both dynamic attention rescaling and retrieval-head-guided selection for the effectiveness of the method, while providing interpretability insights into decoding-time attention behavior. Our code is available at https://github.com/princeton-pli/DySCO.
Abstract（参考訳）: 長いコンテキストに対する理解と推論は言語モデル(LM)にとって重要な能力である。最近のモデルは、ますます長いコンテキストウィンドウをサポートするが、入力長が大きくなるにつれて、その精度は劣化する。実際には、モデルはデコーディングを通して最も関連性の高いコンテキストに注意を向けるのに苦労することが多い。本研究では、長文推論を改善するための新しい復号アルゴリズムであるDySCOを提案する。 DySCOは、長文検索に特化したアテンションヘッドのサブセットである検索ヘッドを活用し、各デコードステップでタスク関連トークンを識別し、明示的にアップウェイトする。そうすることによって、DySCOは生成中の注意を動的に調整し、関連するコンテキストをよりよく活用する。この方法はトレーニングフリーであり、市販のLMに直接適用することができる。複数の命令調整および推論モデル全体で、DySCOは挑戦的な長期コンテキスト推論ベンチマークのパフォーマンスを継続的に改善し、128Kのコンテキスト長でMRCRとLongBenchV2で25%の相対的なゲインを得る。さらに解析は、動的注意再スケーリングと検索ヘッド誘導選択の両方の重要性を強調し、復号時の注意行動に対する解釈可能性の洞察を提供する。私たちのコードはhttps://github.com/princeton-pli/DySCO.comで公開されています。

関連論文リスト

LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards [57.993003392037174]
LongRは動的"Think-and-Read"メカニズムを統合することで、長時間コンテキストのパフォーマンスを向上させるフレームワークである。 LongRは様々なRLアルゴリズムのパフォーマンスを継続的に向上する。
論文参考訳（メタデータ） (2026-02-05T15:26:47Z)
LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding [27.856769454125573]
LLM(Long-context Large Language Model)は、デコード中に急速に拡大するキーバリューキャッシュという、重要なボトルネックを露呈する。我々は,微細なハイブリッドヘッドアテンション機構を中心とした効率的な復号法であるLycheeDecodeを提案する。我々はLycheeDecodeが、フルアテンションベースラインに匹敵する、時には超越した生成品質を達成することを実証した。
論文参考訳（メタデータ） (2026-02-04T13:34:12Z)
Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。 TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文参考訳（メタデータ） (2025-12-10T01:54:57Z)
LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。 LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文参考訳（メタデータ） (2025-02-24T18:53:31Z)
Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。 Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文参考訳（メタデータ） (2025-02-19T08:50:44Z)
SEAL: Scaling to Emphasize Attention for Long-Context Retrieval [8.805524738976075]
我々は、長期文脈検索(SEAL)における注意を強調するためのスケーリングと呼ばれる新しいアプローチを導入する。我々は、特定の注意ヘッドが長文検索と密接に結びついていることを観察し、検索スコアと正あるいは負の相関を示す。本稿では、これらのヘッドを強調するために生成されたデータを活用する学習ベースのメカニズムを提案する。
論文参考訳（メタデータ） (2025-01-25T14:09:39Z)
Ltri-LLM: Streaming Long Context Inference for LLMs with Training-Free Dynamic Triangular Attention Pattern [13.314424072207379]
我々は,KVをスパンに分割し,それらをオフラインインデックスに格納し,関連するKVをメモリに格納するLtri-LLMフレームワークを提案する。一般的な長文ベンチマークによる実験結果から,Ltri-LLMは効率のよいストリーミングベース推論を維持しつつ,FAに近い性能を達成できることがわかった。
論文参考訳（メタデータ） (2024-12-06T03:46:06Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。