Fugu-MT 論文翻訳(概要): TETRIS: Optimal Draft Token Selection for Batch Speculative Decoding

論文の概要: TETRIS: Optimal Draft Token Selection for Batch Speculative Decoding

arxiv url: http://arxiv.org/abs/2502.15197v1
Date: Fri, 21 Feb 2025 04:19:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.064282
Title: TETRIS: Optimal Draft Token Selection for Batch Speculative Decoding
Title（参考訳）: TETRIS: Batch Speculative Decodingのための最適なドラフトトークン選択
Authors: Zhaoxuan Wu, Zijian Zhou, Arun Verma, Alok Prakash, Daniela Rus, Bryan Kian Hsiang Low,
Abstract要約: TETRISは、(バッチ内のすべてのリクエストに対して)最も有望なドラフトトークンを積極的に選択する。我々は,TETRISがベースライン投機的復号法およびドラフトトークンを動的に選択する既存手法より優れていることを理論的かつ実証的に示す。
参考スコア（独自算出の注目度）: 76.23719557942917
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We propose TETRIS, a novel method that optimizes the total throughput of batch speculative decoding in multi-request settings. Unlike existing methods that optimize for a single request or a group of requests as a whole, TETRIS actively selects the most promising draft tokens (for every request in a batch) to be accepted when verified in parallel, resulting in fewer rejected tokens and hence less wasted computing resources. Such an effective resource utilization to achieve fast inference in large language models (LLMs) is especially important to service providers with limited inference capacity. Compared to baseline speculative decoding, TETRIS yields a consistently higher acceptance rate and more effective utilization of the limited inference capacity. We show theoretically and empirically that TETRIS outperforms baseline speculative decoding and existing methods that dynamically select draft tokens, leading to a more efficient batch inference in LLMs.
Abstract（参考訳）: マルチリクエスト設定におけるバッチ投機復号のスループットを最適化する新しい方法であるTETRISを提案する。単一要求やグループ全体の要求を最適化する既存の方法とは異なり、TETRISは並列に検証されたときに受け入れられる最も有望なドラフトトークン(バッチ内のすべてのリクエスト)を積極的に選択する。大規模言語モデル(LLM)における高速推論を実現するための効果的なリソース利用は、推論能力に制限のあるサービスプロバイダにとって特に重要である。ベースライン投機復号法と比較すると、TETRISは一定の高い受入率と限られた推論能力のより効果的な利用が得られる。理論的および実験的に、TETRISはベースライン投機的復号法や、ドラフトトークンを動的に選択する既存の手法よりも優れており、LLMのより効率的なバッチ推論に繋がることを示す。

関連論文リスト

Collaborative Speculative Inference for Efficient LLM Inference Serving [25.133593066927794]
CoSineは並列検証から逐次投機復号を分離する新しい投機推論システムである。同等のリソースコストで、CoSineは23.2%のレイテンシ削減と32.5%のスループット向上を実現している。
論文参考訳（メタデータ） (2025-03-13T13:03:38Z)
Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文参考訳（メタデータ） (2025-02-26T03:22:44Z)
BATON: Enhancing Batch-wise Inference Efficiency for Large Language Models via Dynamic Re-batching [4.610983384440473]
本稿では,処理バッチを動的に調整し,効率的なバッチ単位のLLM推論手法であるBATONを提案する。最先端のソリューションであるOrcaと比較して、BATONはクエリ処理を最大1.75倍改善する。
論文参考訳（メタデータ） (2024-10-24T12:53:39Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文参考訳（メタデータ） (2024-06-25T07:45:00Z)
Efficient Prompt Optimization Through the Lens of Best Arm Identification [50.56113809171805]
この作業は、明示的な予算制約の下でプロンプト選択を効率的に行うための、原則化されたフレームワークであるTRIPLEを提供する。マルチアームバンディット(MAB)における即時最適化と固定予算ベストアーム識別(BAI-FB)の間に確立された新しい接続上に構築されている。
論文参考訳（メタデータ） (2024-02-15T05:31:13Z)
JoinGym: An Efficient Query Optimization Environment for Reinforcement Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。 JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文参考訳（メタデータ） (2023-07-21T17:00:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。