Fugu-MT 論文翻訳(概要): Constrained Decoding with Speculative Lookaheads

論文の概要: Constrained Decoding with Speculative Lookaheads

arxiv url: http://arxiv.org/abs/2412.10418v1
Date: Mon, 09 Dec 2024 22:29:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.544197
Title: Constrained Decoding with Speculative Lookaheads
Title（参考訳）: 投機的ルックアヘッドによる制約付きデコード
Authors: Nishanth Nakshatri, Shamik Roy, Rajarshi Das, Suthee Chaidaroon, Leonid Boytsov, Rashmi Gangadharaiah,
Abstract要約: 我々は投機的ルックアヘッド(CSL)を用いた制約付き復号法を提案する。 CSLは、最近提案された投機的復号化のアイデアによって動機付けられている。 3つのLLMファミリーを持つ2つの制約デコードタスクにおけるCDSLの評価を行い、CDLHの2.2倍から12.15倍の高速化を実現した。
参考スコア（独自算出の注目度）: 13.085794785286305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Constrained decoding with lookahead heuristics (CDLH) is a highly effective method for aligning LLM generations to human preferences. However, the extensive lookahead roll-out operations for each generated token makes CDLH prohibitively expensive, resulting in low adoption in practice. In contrast, common decoding strategies such as greedy decoding are extremely efficient, but achieve very low constraint satisfaction. We propose constrained decoding with speculative lookaheads (CDSL), a technique that significantly improves upon the inference efficiency of CDLH without experiencing the drastic performance reduction seen with greedy decoding. CDSL is motivated by the recently proposed idea of speculative decoding that uses a much smaller draft LLM for generation and a larger target LLM for verification. In CDSL, the draft model is used to generate lookaheads which is verified by a combination of target LLM and task-specific reward functions. This process accelerates decoding by reducing the computational burden while maintaining strong performance. We evaluate CDSL in two constraint decoding tasks with three LLM families and achieve 2.2x to 12.15x speedup over CDLH without significant performance reduction.
Abstract（参考訳）: ルックアヘッドヒューリスティックス(CDLH)による制約デコーディングは、LLM世代をヒトの嗜好に合わせるのに非常に効果的な方法である。しかし、生成されたトークンごとに広範囲にわたるルックアヘッドロールアウト操作により、CDLHは違法に高価になり、実際に採用されることは少なくなる。対照的に、グリーディ復号のような一般的な復号法は非常に効率的であるが、制約満足度は非常に低い。本稿では,CDLHの推論効率を大幅に向上する手法である投機的ルックアヘッド(CDSL)を用いた制約デコーディングを提案する。 CDSLは、最近提案された投機的復号化のアイデアによって動機付けられている。 CDSLでは、目標LLMとタスク固有の報酬関数の組み合わせによって検証されるルックアヘッドを生成するために、ドラフトモデルが使用される。このプロセスは、高い性能を維持しながら計算負担を低減し、復号化を加速する。 3つのLLMファミリーを持つ2つの制約デコードタスクにおけるCDSLの評価を行い,CDLHの2.2倍から12.15倍の高速化を実現した。

関連論文リスト

Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs [37.94110023657587]
Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
論文参考訳（メタデータ） (2025-07-24T16:51:33Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文参考訳（メタデータ） (2025-01-21T15:36:08Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-07T16:23:36Z)
Cascade Reward Sampling for Efficient Decoding-Time Alignment [17.278488115500615]
復号時間アライメントにおける効率の両立を図るためにカスケード逆サンプリング(CARDS)を導入する。 CARDSは、大きな言語モデル(LLM)と報酬モデル(RM)の両方の冗長な計算を最小化する
論文参考訳（メタデータ） (2024-06-24T04:08:35Z)
Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文参考訳（メタデータ） (2024-02-26T18:59:28Z)
Break the Sequential Dependency of LLM Inference Using Lookahead Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文参考訳（メタデータ） (2024-02-03T06:37:50Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文参考訳（メタデータ） (2023-11-15T14:15:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。