論文の概要: Speculative Decoding and Beyond: An In-Depth Survey of Techniques
- arxiv url: http://arxiv.org/abs/2502.19732v3
- Date: Tue, 04 Mar 2025 03:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 12:13:48.938575
- Title: Speculative Decoding and Beyond: An In-Depth Survey of Techniques
- Title(参考訳): 投機的復号化と超越 - 詳細な技術調査
- Authors: Yunhai Hu, Zining Liu, Zhenyuan Dong, Tianfan Peng, Bradley McDanel, Sai Qian Zhang,
- Abstract要約: シーケンシャルな依存関係は、大規模な自己回帰モデルをデプロイする上で、根本的なボトルネックとなる。
ジェネレーション・リファインメント・フレームワークの最近の進歩は、このトレードオフを著しく緩和できることを示している。
- 参考スコア(独自算出の注目度): 4.165029665035158
- License:
- Abstract: Sequential dependencies present a fundamental bottleneck in deploying large-scale autoregressive models, particularly for real-time applications. While traditional optimization approaches like pruning and quantization often compromise model quality, recent advances in generation-refinement frameworks demonstrate that this trade-off can be significantly mitigated. This survey presents a comprehensive taxonomy of generation-refinement frameworks, analyzing methods across autoregressive sequence tasks. We categorize methods based on their generation strategies (from simple n-gram prediction to sophisticated draft models) and refinement mechanisms (including single-pass verification and iterative approaches). Through systematic analysis of both algorithmic innovations and system-level implementations, we examine deployment strategies across computing environments and explore applications spanning text, images, and speech generation. This systematic examination of both theoretical frameworks and practical implementations provides a foundation for future research in efficient autoregressive decoding.
- Abstract(参考訳): シーケンシャルな依存関係は、特にリアルタイムアプリケーションにおいて、大規模な自己回帰モデルをデプロイする上で、根本的なボトルネックとなる。
プルーニングや量子化といった従来の最適化アプローチはモデルの品質を損なうことが多いが、ジェネレーションリファインメントフレームワークの最近の進歩は、このトレードオフを著しく緩和できることを示している。
本調査では, 自己回帰的シーケンスタスク間での手法を解析し, ジェネレーション・リファインメント・フレームワークの包括的分類法を提案する。
我々は,その生成戦略(単純なn-gram予測から洗練されたドラフトモデルまで)と改良機構(シングルパス検証や反復的アプローチを含む)に基づいて手法を分類する。
アルゴリズムの革新とシステムレベルの実装の両方を体系的に分析することにより、計算環境間のデプロイメント戦略を調べ、テキスト、画像、音声生成にまたがるアプリケーションを探索する。
この理論的枠組みと実践的実装の体系的な検証は、効率的な自己回帰的復号法の研究の基盤となる。
関連論文リスト
- Beyond Fine-Tuning: A Systematic Study of Sampling Techniques in Personalized Image Generation [2.9631016562930546]
学習概念の忠実さと、様々な文脈で生成する能力のバランスをとることは、重大な課題である。
既存の手法はしばしば、様々な微調整パラメータ化とサンプリング戦略の改善を通じてこの問題に対処する。
本稿では,テキストアライメント,計算制約,忠実度を判定し,戦略選択を導くためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-09T13:22:32Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - From Noise to Nuance: Advances in Deep Generative Image Models [8.802499769896192]
ディープラーニングに基づく画像生成は、2021年以来パラダイムシフトを続けてきた。
安定拡散, DALL-E, 一貫性モデルの最近の進歩は, 画像合成の能力と性能の境界を再定義している。
マルチモーダル理解とゼロショット生成能力の強化が,産業全体にわたる実践的応用をいかに変えつつあるかを検討する。
論文 参考訳(メタデータ) (2024-12-12T02:09:04Z) - Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling [48.78361527873024]
本稿では,2つの異なる手法の強みを組み込んだ手書き文字認識手法を提案する。
本稿では,アルゴリズムの収束を加速し,システム全体の性能を向上させるスペーシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2024-09-09T15:12:28Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - A Multi-criteria Approach to Evolve Sparse Neural Architectures for
Stock Market Forecasting [0.0]
本研究は, 市場指標の移動予測のための, 効率的かつ同相なニューラルアーキテクチャを進化させる新しい枠組みを提案する。
新しい探索パラダイムである2次元スワム (2DS) が, マルチ基準ニューラルアーキテクチャサーチのために提案されている。
本研究の結果は,提案手法がより優れた一般化能力を持つ同相ネットワークを進化させることができることを示すものである。
論文 参考訳(メタデータ) (2021-11-15T19:44:10Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Reinforcement Learning as Iterative and Amortised Inference [62.997667081978825]
我々は、この制御を推論フレームワークとして使用し、償却および反復推論に基づく新しい分類スキームを概説する。
この観点から、比較的探索されていないアルゴリズム設計空間の一部を特定できることを示す。
論文 参考訳(メタデータ) (2020-06-13T16:10:03Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。