論文の概要: Recurrent Drafter for Fast Speculative Decoding in Large Language Models
- arxiv url: http://arxiv.org/abs/2403.09919v3
- Date: Thu, 30 May 2024 17:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 20:44:52.578602
- Title: Recurrent Drafter for Fast Speculative Decoding in Large Language Models
- Title(参考訳): 大規模言語モデルにおける高速投機復号化のための逐次描画法
- Authors: Aonan Zhang, Chong Wang, Yi Wang, Xuanyu Zhang, Yunfei Cheng,
- Abstract要約: 本稿では,大規模言語モデルの提供効率向上を目的とした投機的復号化手法を提案する。
我々は、古典的な2モデル投機的復号法と、より最近のシングルモデルアプローチであるMedusaという2つの確立された手法の長所を生かしている。
提案手法がいくつかのポピュラーなオープンソース言語モデルに対して有効であることを実証的に示すとともに,このアプローチの適用に関わるトレードオフを包括的に分析する。
- 参考スコア(独自算出の注目度): 18.342742904042673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce an improved approach of speculative decoding aimed at enhancing the efficiency of serving large language models. Our method capitalizes on the strengths of two established techniques: the classic two-model speculative decoding approach, and the more recent single-model approach, Medusa. Drawing inspiration from Medusa, our approach adopts a single-model strategy for speculative decoding. However, our method distinguishes itself by employing a single, lightweight draft head with a recurrent dependency design, akin in essence to the small, draft model uses in classic speculative decoding, but without the complexities of the full transformer architecture. And because of the recurrent dependency, we can use beam search to swiftly filter out undesired candidates with the draft head. The outcome is a method that combines the simplicity of single-model design and avoids the need to create a data-dependent tree attention structure only for inference in Medusa. We empirically demonstrate the effectiveness of the proposed method on several popular open source language models, along with a comprehensive analysis of the trade-offs involved in adopting this approach.
- Abstract(参考訳): 本稿では,大規模言語モデルの提供効率向上を目的とした投機的復号法の改良手法を提案する。
提案手法は,古典的2モデル投機的復号法と,より最近の単一モデル法であるMedusaという2つの確立された手法の長所を生かしている。
Medusaからインスピレーションを得た私たちのアプローチでは、投機的復号化のための単一モデル戦略を採用しています。
しかし,本手法は,従来の投機的復号法で使用される小型のドラフトモデルと本質的に類似しているが,完全なトランスフォーマーアーキテクチャの複雑さは伴わない。
そして、繰り返し発生する依存関係のため、ビームサーチを使用して、望ましくない候補をドラフトヘッドで素早くフィルタリングすることができる。
その結果、単一モデル設計の単純さを組み合わせ、Medusaの推論にのみデータ依存のツリーアテンション構造を作成する必要がなくなる。
提案手法がいくつかのポピュラーなオープンソース言語モデルに対して有効であることを実証的に示すとともに,このアプローチの適用に関わるトレードオフを包括的に分析する。
関連論文リスト
- Faster Cascades via Speculative Decoding [66.16909847419198]
提案手法は,投機的実行による推論規則を実装した新しい投機的カスケード手法である。
提案手法はカスケードや投機的復号化ベースラインよりもコスト品質の高いトレードオフをもたらすことを示す。
論文 参考訳(メタデータ) (2024-05-29T16:55:08Z) - Generative Active Learning for Image Synthesis Personalization [57.01364199734464]
本稿では,伝統的に識別モデルを用いて研究されてきた能動的学習の生成モデルへの応用について検討する。
生成モデル上でアクティブな学習を行う上での最大の課題は、クエリのオープンな性質にある。
問合せ処理を半開問題に変換するために,アンカー方向の概念を導入する。
論文 参考訳(メタデータ) (2024-03-22T06:45:45Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Deep Generative Models for Decision-Making and Control [4.238809918521607]
この論文の2つの目的は、これらの欠点の理由を研究し、未解決問題に対する解決策を提案することである。
本稿では、ビームサーチを含む現代の生成モデリングツールボックスからの推論手法を、強化学習問題のための実行可能な計画戦略として再解釈する方法について述べる。
論文 参考訳(メタデータ) (2023-06-15T01:54:30Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。
本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:13:11Z) - Improving Authorship Verification using Linguistic Divergence [6.673132899229721]
事前学習した深層言語モデルを活用したオーサシップ検証タスクに対する教師なしソリューションを提案します。
提案するメトリクスは,事前学習した言語モデルと比較した2人の著者間の差異の尺度である。
論文 参考訳(メタデータ) (2021-03-12T03:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。