論文の概要: Mamba Drafters for Speculative Decoding
- arxiv url: http://arxiv.org/abs/2506.01206v1
- Date: Sun, 01 Jun 2025 22:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.990616
- Title: Mamba Drafters for Speculative Decoding
- Title(参考訳): 投機的デコードのためのMamba Drafters
- Authors: Daewon Choi, Seunghyuk Oh, Saket Dingliwal, Jihoon Tack, Kyuyoung Kim, Woomin Song, Seojin Kim, Insu Han, Jinwoo Shin, Aram Galstyan, Shubham Katiyar, Sravan Babu Bodapati,
- Abstract要約: SSM(State-of-the-art State Space Model)であるMambaをベースとした新しいドラフトモデルを提案する。
SSMの線形構造を活用することにより、従来のトランスフォーマー法に固有の二次的複雑性を回避することができる。
高品質なドラフト候補を生成するための新しいテスト時間木探索アルゴリズムにより、効率をさらに向上する。
- 参考スコア(独自算出の注目度): 58.080550222549064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding has emerged as a promising approach to accelerating large language model (LLM) generation using a fast drafter while maintaining alignment with the target model's distribution. However, existing approaches face a trade-off: external drafters offer flexibility but can suffer from slower drafting, while self-speculation methods use drafters tailored to the target model but require re-training. In this paper, we introduce novel drafters based on Mamba, a state-of-the-art state space model (SSM), as a solution that combines the best aspects of both approaches. By leveraging the linear structure of SSMs, our approach avoids the quadratic complexity inherent in traditional Transformer-based methods, enabling faster drafting and lower memory usage while maintaining the flexibility to work across different target models. We further enhance efficiency with a novel test-time tree search algorithm for generating high-quality draft candidates. Our empirical evaluation demonstrates that Mamba-based drafters not only outperform existing external drafting methods but are also comparable to state-of-the-art self-speculation approaches while using less memory and maintaining their cross-model adaptability.
- Abstract(参考訳): 投機的復号化は,ターゲットモデルの分布との整合性を維持しつつ,高速な起草器を用いて大規模言語モデル(LLM)生成を高速化する,有望なアプローチとして登場した。
しかし、既存のアプローチはトレードオフに直面している。外部のドラフト作成者は柔軟性を提供するが、遅いドラフト作成に悩まされる可能性がある。
本稿では,両アプローチの最良の側面を組み合わせたソリューションとして,最先端状態空間モデル(SSM)であるMambaをベースとした新規な草案について紹介する。
SSMの線形構造を利用することで、従来のTransformerベースの手法に固有の二次的複雑さを回避し、より高速な起草とメモリ使用量の削減を実現し、異なるターゲットモデルにまたがる柔軟性を維持する。
高品質なドラフト候補を生成するための新しいテスト時間木探索アルゴリズムにより、効率をさらに向上する。
我々の経験的評価は、マンバをベースとしたドラフトラが既存の外部ドラフト手法に勝るだけでなく、メモリを減らし、モデル間の適合性を維持しつつ、最先端の自己定義手法に匹敵することを示した。
関連論文リスト
- Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。
LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。
LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models [32.68002253527712]
より高速な推論のためのドラフトモデルをデプロイするための、新しいマルチターゲットシナリオを紹介します。
マルチターゲット設定における正規ベースラインよりも優れた、より効率的なソートされた投機的復号化機構を提案する。
論文 参考訳(メタデータ) (2024-07-02T05:14:15Z) - Recurrent Drafter for Fast Speculative Decoding in Large Language Models [18.342742904042673]
本稿では,高度な投機的復号法であるRecurrent Drafterを提案する。
大規模言語モデル(LLM)推論の最先端の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-14T23:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。