論文の概要: Speculative Decoding for Multi-Sample Inference
- arxiv url: http://arxiv.org/abs/2503.05330v1
- Date: Fri, 07 Mar 2025 11:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 19:13:14.976735
- Title: Speculative Decoding for Multi-Sample Inference
- Title(参考訳): マルチサンプル推論のための投機的復号法
- Authors: Yiwei Li, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Xinglin Wang, Yueqi Zhang, Ji Zhang, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li,
- Abstract要約: マルチサンプル推論シナリオに適した新しい投機的復号法を提案する。
提案手法は並列生成経路の本質的なコンセンサスを利用して高品質なドラフトトークンを合成する。
- 参考スコア(独自算出の注目度): 21.64693536216534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel speculative decoding method tailored for multi-sample reasoning scenarios, such as self-consistency and Best-of-N sampling. Our method exploits the intrinsic consensus of parallel generation paths to synthesize high-quality draft tokens without requiring auxiliary models or external databases. By dynamically analyzing structural patterns across parallel reasoning paths through a probabilistic aggregation mechanism, it identifies consensus token sequences that align with the decoding distribution. Evaluations on mathematical reasoning benchmarks demonstrate a substantial improvement in draft acceptance rates over baselines, while reducing the latency in draft token construction. This work establishes a paradigm shift for efficient multi-sample inference, enabling seamless integration of speculative decoding with sampling-based reasoning techniques.
- Abstract(参考訳): 自己整合性やBest-of-Nサンプリングなどのマルチサンプル推論シナリオに適した新しい投機的復号法を提案する。
提案手法は並列生成経路の本質的なコンセンサスを利用して,補助モデルや外部データベースを必要とせずに高品質なドラフトトークンを合成する。
確率的集約機構を通じて並列推論経路にまたがる構造パターンを動的に解析することにより、復号分布と整合するコンセンサストークン列を同定する。
数学的推論ベンチマークの評価は、ドラフトトークン構築の遅延を低減しつつ、ベースラインよりもドラフト受け入れ率を大幅に改善したことを示す。
この研究は、効率的なマルチサンプル推論のためのパラダイムシフトを確立し、サンプリングベースの推論技術と投機的復号のシームレスな統合を可能にする。
関連論文リスト
- Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - Confidence-Modulated Speculative Decoding for Large Language Models [0.0]
本稿では,信頼度変調された起草に基づく投機的復号化のための情報理論フレームワークを提案する。
機械翻訳と要約タスクの実験は、標準的な投機的復号化よりも大幅に高速化された。
論文 参考訳(メタデータ) (2025-08-21T09:06:31Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文 参考訳(メタデータ) (2025-02-26T03:22:44Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Parallel Simulation for Log-concave Sampling and Score-based Diffusion Models [55.07411490538404]
本稿では,次元$d$の適応的複雑性依存性を改善する並列サンプリング手法を提案する。
我々の手法は科学計算による並列シミュレーション技術に基づいている。
論文 参考訳(メタデータ) (2024-12-10T11:50:46Z) - KL-geodesics flow matching with a novel sampling scheme [4.347494885647007]
非自己回帰型言語モデルは全てのトークンを同時に生成し、従来の自己回帰型モデルよりも潜在的に高速である。
テキスト生成のための条件付きフローマッチング手法について検討する。
論文 参考訳(メタデータ) (2024-11-25T17:15:41Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Fast and Robust Early-Exiting Framework for Autoregressive Language
Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。
我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。
並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文 参考訳(メタデータ) (2023-10-09T05:53:05Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。
本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T22:19:41Z) - BOSS: Bidirectional One-Shot Synthesis of Adversarial Examples [8.359029046999233]
本稿では,逆数例のワンショット合成を提案する。
入力はスクラッチから合成され、事前訓練されたモデルの出力で任意のソフト予測を誘導する。
本稿では,本フレームワークの汎用性と汎用性を示す。
論文 参考訳(メタデータ) (2021-08-05T17:43:36Z) - Parallel and Multi-Objective Falsification with Scenic and VerifAI [11.152087017964584]
シナリオ仕様言語とVerifAIツールキットの拡張について述べる。
まず,Scanicのシミュレーションとサンプリング機能の両方にインタフェースを組み込んだ並列化フレームワークを提案する。
次に、サンプリング中の多目的最適化をサポートするために、VerifAIのファルシフィケーションアルゴリズムの拡張を示す。
論文 参考訳(メタデータ) (2021-07-09T01:08:49Z) - Learning Proposals for Probabilistic Programs with Inference Combinators [9.227032708135617]
確率プログラムの提案構築事業者を育成します。
推論サンプリングにおける提案はニューラルネットワークを用いてパラメータ化できる。
このフレームワークの柔軟性を、高度な変分法によって実証する。
論文 参考訳(メタデータ) (2021-03-01T00:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。