論文の概要: Faster Cascades via Speculative Decoding
- arxiv url: http://arxiv.org/abs/2405.19261v2
- Date: Mon, 21 Oct 2024 18:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:38.750511
- Title: Faster Cascades via Speculative Decoding
- Title(参考訳): 投機的復号化による高速カスケード
- Authors: Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon, Sanjiv Kumar,
- Abstract要約: カスケードと投機的復号化は、言語モデルの推論効率を改善するためのアプローチである。
提案手法は,投機的実行による推論規則を実装した新しい投機的カスケード手法である。
我々の手法は、カスケードや投機的復号化ベースラインよりもコスト品質のトレードオフが優れていることを示す。
- 参考スコア(独自算出の注目度): 66.16909847419198
- License:
- Abstract: Cascades and speculative decoding are two common approaches to improving language models' inference efficiency. Both approaches involve interleaving models of different sizes, but via fundamentally distinct mechanisms: cascades employ a deferral rule that invokes the larger model only for "hard" inputs, while speculative decoding uses speculative execution to primarily invoke the larger model in parallel verification mode. These mechanisms offer different benefits: empirically, cascades offer better cost-quality trade-offs, often even outperforming the large model, while theoretically, speculative decoding offers a guarantee of quality-neutrality. In this paper, we leverage the best of both these approaches by designing new speculative cascading techniques that implement their deferral rule through speculative execution. We characterize the optimal deferral rule for our speculative cascades, and employ a plug-in approximation to the optimal rule. Experiments with Gemma and T5 models on a range of language benchmarks show that our approach yields better cost quality trade-offs than cascading and speculative decoding baselines.
- Abstract(参考訳): カスケードと投機的復号化は、言語モデルの推論効率を改善するための2つの一般的なアプローチである。
カスケードはより大きなモデルを「ハード」入力のみに呼び出し、投機的復号法は投機的実行を用いて、主に大きなモデルを並列検証モードで呼び出す。
実証的に、カスケードはより良いコスト品質のトレードオフを提供し、しばしば大きなモデルよりも優れている一方、理論的には、投機的復号化は品質中立性を保証する。
本稿では,これら2つの手法の長所を,投機的実行を通じて推論規則を実装する新しい投機的カスケード手法を設計することによって活用する。
我々は投機カスケードの最適遅延則を特徴付け、最適規則にプラグイン近似を用いる。
Gemma と T5 モデルを用いた様々な言語ベンチマーク実験により、我々のアプローチはカスケードや投機的復号化ベースラインよりもコスト品質のトレードオフが優れていることが示された。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Stochastic Two Points Method for Deep Model Zeroth-order Optimization [32.459322001738144]
本稿では,勾配自由状態下での効率的な2点(S2P)アプローチを提案する。
一般および緩和された滑らか性仮定の下で、S2Pの理論収束性を示す。
我々は、VS2Pが深層モデルの目的を最適化するのに非常に効果的であることを示す。
論文 参考訳(メタデータ) (2024-02-02T18:39:40Z) - Cascade Speculative Drafting for Even Faster LLM Inference [25.642604897018852]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。
本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。
CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:59:46Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Towards Better Certified Segmentation via Diffusion Models [62.21617614504225]
セグメンテーションモデルは敵の摂動に弱いため、医療や自動運転といった重要な意思決定システムでの使用を妨げます。
近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。
本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。
論文 参考訳(メタデータ) (2023-06-16T16:30:39Z) - SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision [54.16430358203348]
本稿では,単純なスリム化可能なセマンティックセマンティックセマンティクス(SlimSeg)法を提案する。
提案するSlimSegは,様々な主流ネットワークを用いて,計算コストの動的調整と性能向上を実現するフレキシブルなモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2022-07-13T14:41:05Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - BODAME: Bilevel Optimization for Defense Against Model Extraction [10.877450596327407]
私たちは、サービスプロバイダのアタッカーを最も推測する前提の下でモデル抽出を防ぐために、逆の設定を検討します。
真のモデルの予測を用いてサロゲートモデルを定式化する。
勾配降下に基づくアルゴリズムを用いて学習されるより複雑なモデルに対して,トラクタブル変換とアルゴリズムを与える。
論文 参考訳(メタデータ) (2021-03-11T17:08:31Z) - Learning Deep-Latent Hierarchies by Stacking Wasserstein Autoencoders [22.54887526392739]
本稿では, 最適輸送に基づくディープラーニング階層を用いたモデル学習手法を提案する。
提案手法は, VAEの「潜伏変数崩壊」問題を回避することで, 生成モデルをその深部潜伏階層を完全に活用することを可能にした。
論文 参考訳(メタデータ) (2020-10-07T15:04:20Z) - Proximal Mapping for Deep Regularization [15.48377586806766]
ディープラーニングの成功を支えているのは、さまざまな事前データをモデル化できる効果的な正規化である。
本稿では, 直接的かつ明示的に正規化された隠蔽層出力を生成するディープネットワークに, 新しい層として近位写像を挿入することを提案する。
得られた技術はカーネルのワープとドロップアウトによく結びついており、堅牢な時間的学習とマルチビューモデリングのための新しいアルゴリズムが開発された。
論文 参考訳(メタデータ) (2020-06-14T07:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。