論文の概要: RASD: Retrieval-Augmented Speculative Decoding
- arxiv url: http://arxiv.org/abs/2503.03434v1
- Date: Wed, 05 Mar 2025 12:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:39.775011
- Title: RASD: Retrieval-Augmented Speculative Decoding
- Title(参考訳): RASD:Retrieval-Augmented Speculative Decoding
- Authors: Guofeng Quan, Wenfeng Feng, Chuzhan Hao, Guochao Jiang, Yuewei Zhang, Hao Wang,
- Abstract要約: 投機的復号化は大規模言語モデル(LLM)における推論を加速する
本稿では,モデルに基づく投機的復号化を促進する検索手法を採用したRASD(Retrieval-Augmented Speculative Decoding)を提案する。
- 参考スコア(独自算出の注目度): 5.3926068062773895
- License:
- Abstract: Speculative decoding accelerates inference in large language models (LLMs) by generating draft tokens for target model verification. Current approaches for obtaining draft tokens rely on lightweight draft models or additional model structures to generate draft tokens and retrieve context from databases. Due to the draft model's small size and limited training data, model-based speculative decoding frequently becomes less effective in out-of-domain scenarios. Additionally, the time cost of the drafting phase results in a low upper limit on acceptance length during the verification step, limiting overall efficiency. This paper proposes RASD (Retrieval-Augmented Speculative Decoding), which adopts retrieval methods to enhance model-based speculative decoding. We introduce tree pruning and tree fusion to achieve this. Specifically, we develop a pruning method based on the draft model's probability distribution to construct the optimal retrieval tree. Second, we employ the longest prefix matching algorithm to merge the tree generated by the draft model with the retrieval tree, resulting in a unified tree for verification. Experimental results demonstrate that RASD achieves state-of-the-art inference acceleration across tasks such as DocQA, Summary, Code, and In-Domain QA. Moreover, RASD exhibits strong scalability, seamlessly integrating with various speculative decoding approaches, including both generation-based and retrieval-based methods.
- Abstract(参考訳): 投機的復号化は、ターゲットモデル検証のためのドラフトトークンを生成することで、大言語モデル(LLM)の推論を加速する。
ドラフトトークンを取得するための現在のアプローチは、ドラフトトークンを生成し、データベースからコンテキストを取得するために、軽量なドラフトモデルや追加のモデル構造に依存しています。
ドラフトモデルの小さなサイズと限られたトレーニングデータのため、モデルベースの投機的復号化はしばしばドメイン外のシナリオでは効果が低下する。
さらに、起草段階の時間コストは、検証段階における受入期間の上限を低くし、全体的な効率を損なう。
本稿では,モデルに基づく投機的復号化を促進する検索手法を採用したRASD(Retrieval-Augmented Speculative Decoding)を提案する。
これを実現するために,木刈りと木融合を導入する。
具体的には、最適な検索木を構築するために、ドラフトモデルの確率分布に基づくプルーニング手法を開発する。
第2に,提案手法では,提案手法により生成した木を検索木とマージするために,最長のプレフィックスマッチングアルゴリズムを用いて検証を行う。
実験の結果, RASDはDocQA, Summary, Code, In-Domain QAといったタスクにまたがって, 最先端の推論高速化を実現することがわかった。
さらに、RASDは強力なスケーラビリティを示し、生成ベースと検索ベースの両方の手法を含む様々な投機的復号法とシームレスに統合する。
関連論文リスト
- C2T: A Classifier-Based Tree Construction Method in Speculative Decoding [9.663330370149428]
投機的復号法は、しばしばトークンツリーの構築や候補トークンの検証において非効率に直面する。
トークンツリーを動的に生成・生成するための軽量な分類器C2Tを提案する。
論文 参考訳(メタデータ) (2025-02-19T11:57:02Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure [40.9990864658776]
投機的復号には、複数のトークンを1ステップで生成できるようにする"ドラフトと検証"機構が使用されている。
既存の手法は主に固定されたドラフト構造を採用しており、異なる状況に適応できない。
我々は適応的でスケーラブルなドラフトツリーを構築するアルゴリズムであるOPT-Treeを提案する。
論文 参考訳(メタデータ) (2024-06-25T04:45:53Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。
本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。
前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文 参考訳(メタデータ) (2022-05-18T21:52:11Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。