論文の概要: OWL: Overcoming Window Length-Dependence in Speculative Decoding for Long-Context Inputs
- arxiv url: http://arxiv.org/abs/2510.07535v1
- Date: Wed, 08 Oct 2025 20:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.727544
- Title: OWL: Overcoming Window Length-Dependence in Speculative Decoding for Long-Context Inputs
- Title(参考訳): OWL:長期入力の投機的デコーディングにおけるウィンドウ長依存性の克服
- Authors: Jaeseong Lee, seung-won hwang, Aurick Qiao, Gabriele Oliaro, Ye Wang, Samyam Rajbhandari,
- Abstract要約: 投機的復号化は、大きな言語モデルに対するより高速な推論を約束する。
既存のメソッドは実世界の設定に一般化できない。
我々は新しい長文ベンチマーク(LongSpecBench)をリリースし、新しいモデル(OWL)を導入する。
- 参考スコア(独自算出の注目度): 34.709771308054236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding promises faster inference for large language models (LLMs), yet existing methods fail to generalize to real-world settings. Benchmarks typically assume short contexts (e.g., 2K tokens), whereas practical workloads involve long contexts. We find current approaches degrade severely with long contexts; for instance, EAGLE3 even slows down the generation speed by 0.81x. We address these limitations by releasing a new long-context benchmark (LongSpecBench) and introducing a novel model (OWL). OWL achieves about 5x higher acceptance length than EAGLE3 on long-context inputs through three innovations: (1) an LSTM-based drafter conditioned only on the last-token state, making it generalize to various lengths, (2) a special token [SPEC] in the verifier that produces richer representation for drafter, and (3) a hybrid algorithm combining both tree and non-tree decoding methods. We release all code and datasets to advance future research.
- Abstract(参考訳): 投機的復号化は、大規模言語モデル(LLM)の高速な推論を約束するが、既存のメソッドは実世界の設定に一般化できない。
ベンチマークは通常、短いコンテキスト(2Kトークンなど)を前提とします。
例えば、ERGLE3は生成速度を0.81倍も遅くする。
本稿では,LongSpecBench(LongSpecBench)を新たにリリースし,新しいモデル(OWL)を導入することで,これらの制約に対処する。
OWLは, 長文入力におけるEAGLE3よりも約5倍の受理長を達成し, LSTMをベースとしたプロダクタを最終状態に限定し, 様々な長さに一般化し, 2) プロダクタのよりリッチな表現を生成する検証器の特別なトークン[SPEC], (3) ツリーデコードと非ツリーデコードの両方を組み合わせたハイブリッドアルゴリズムを開発した。
将来の研究を進めるために、すべてのコードとデータセットをリリースします。
関連論文リスト
- LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。
LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。
また,将来的な外挿機能についても検討した。
この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文 参考訳(メタデータ) (2023-08-21T17:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。