Fugu-MT 論文翻訳(概要): Multi-Bin Batching for Increasing LLM Inference Throughput

論文の概要: Multi-Bin Batching for Increasing LLM Inference Throughput

arxiv url: http://arxiv.org/abs/2412.04504v1
Date: Tue, 03 Dec 2024 03:16:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 22:41:40.878556
Title: Multi-Bin Batching for Increasing LLM Inference Throughput
Title（参考訳）: LLM推論スループット向上のためのマルチビンバッチ
Authors: Ozgur Guldogan, Jackson Kunde, Kangwook Lee, Ramtin Pedarsani,
Abstract要約: 大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。リクエストはサーバ上のジョブをスケジューリングする重要なステップです。リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
参考スコア（独自算出の注目度）: 19.652542432683234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) grow in popularity for their diverse capabilities, improving the efficiency of their inference systems has become increasingly critical. Batching LLM requests is a critical step in scheduling the inference jobs on servers (e.g. GPUs), enabling the system to maximize throughput by allowing multiple requests to be processed in parallel. However, requests often have varying generation lengths, causing resource underutilization, as hardware must wait for the longest-running request in the batch to complete before moving to the next batch. We formalize this problem from a queueing-theoretic perspective, and aim to design a control policy which is throughput-optimal. We propose Multi-Bin Batching, a simple yet effective method that can provably improve LLM inference throughput by grouping requests with similar (predicted) execution times into predetermined bins. Through a combination of theoretical analysis and experiments, including real-world LLM inference scenarios, we demonstrate significant throughput gains compared to standard batching approaches.
Abstract（参考訳）: 大規模言語モデル(LLM)が多種多様な能力で人気を増すにつれ、推論システムの効率性の向上がますます重要になっている。 LLMリクエストのバッチ化は、サーバ上の推論ジョブ(GPUなど)をスケジューリングする上で重要なステップであり、複数のリクエストを並列に処理することでスループットを最大化する。ハードウェアは次のバッチに移行する前に、バッチ内で最も長い要求が完了するのを待たなければならない。我々は、この問題をキューイング理論の観点から形式化し、スループット最適化の制御ポリシーを設計することを目的としている。我々は,LLM推論のスループットを,類似した(予測された)実行時間で所定のビンにグループ化することで向上させる,シンプルかつ効果的な手法であるMulti-Bin Batchingを提案する。実世界のLLM推論シナリオを含む理論解析と実験を組み合わせることで、標準的なバッチ処理手法と比較して大きなスループット向上を示す。

関連論文リスト

Justitia: Fair and Efficient Scheduling for LLM Applications [32.900257208449716]
我々は、3つの重要なテクニックを持つ新しいスケジューラであるJustitiaを設計する。 Justitiaは、LLMアプリケーションのサービスコストをメモリ中心の方法でモデル化します。単純なニューラルネットワークモデルを使用して、軽量で正確な需要予測を行う。
論文参考訳（メタデータ） (2025-10-19T21:34:34Z)
Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Semi-Clairvoyant Scheduling of Speculative Decoding Requests to Minimize LLM Inference Latency [4.372762934308627]
本稿では,LAPS-SD(Least-Attained/Perceived-Service for Speculative Decoding)と呼ばれる半クレアボイト要求スケジューリングアルゴリズムを提案する。 LAPS-SDは、デコーディング中に、要求を特徴に応じて適応的にスケジューリングすることで、平均推論遅延を効果的に最小化することができる。 LAPS-SDは、最先端のスケジューリング手法と比較して、推論遅延を約39%削減する。
論文参考訳（メタデータ） (2025-05-20T04:12:37Z)
Improving the End-to-End Efficiency of Offline Inference for Multi-LLM Applications Based on Sampling and Simulation [23.318601470116498]
単一ノードマルチGPU環境におけるマルチLLMアプリケーションのオフラインエンドツーエンド推論効率を改善することを目的としている。そこで本研究では,モデル実行時間を推定するためのサンプリング-then-simulation法を提案する。 3つのアプリケーションと混在アプリケーションの実験は、SamuLLMが1.0-2.4$times$ end-to-endのスピードアップを達成できることを示している。
論文参考訳（メタデータ） (2025-03-21T06:56:35Z)
Dipper: Diversity in Prompts for Producing Large Language Model Ensembles in Reasoning tasks [39.820621967837205]
大規模言語モデルの性能を高める推論時間法は、シーケンシャルなクエリに大きく依存しているが、過去の研究で有効であることが示されている。本稿では,1つのモデルに最適化された多様なプロンプトを並列に供給する,新しい学習不要なLLMアンサンブルフレームワークを提案する。実験により,本手法が算数推論タスク,例えばMATHにおいて有意な向上をもたらすことを実証した。
論文参考訳（メタデータ） (2024-12-12T17:49:05Z)
Efficient LLM Scheduling by Learning to Rank [19.33941579312897]
そこで本研究では,要求の集合における出力長の相対的なランクを,学習者によるランク付けによって予測可能であることを示す。我々は,LLM推論のための新しいスケジューラを開発し,SJFスケジュールを既存手法よりも高速に近似する。
論文参考訳（メタデータ） (2024-08-28T13:35:54Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
TurboSpec: Closed-loop Speculation Control System for Optimizing LLM Serving Goodput [37.56866491624234]
大規模言語モデル (LLM) システムは、効率的なサービスを実現するために、同時ユーザー要求をバッチ化する。本稿では,実行環境を自動的にプロファイリングする投機制御システムTurboSpecを提案する。さまざまなワークロードとハードウェア構成にまたがって、その効果を実証します。
論文参考訳（メタデータ） (2024-06-20T07:43:33Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving [2.9164564021428845]
大規模言語モデル(LLM)サービスのためのマルチモデルキュー管理フレームワークを提案する。 QLM は複数の LLM Serving Operations (LSOs) の動作をオーケストレーションし、HOL ブロックの削減と達成率の最大化を図っている。実世界のLLMサービスデータセットを用いた異種GPUデバイスおよびモデルの評価では、QLMはSLO達成率を40-90%改善し、スループットを20-400%向上した。
論文参考訳（メタデータ） (2024-06-05T21:17:34Z)
Preble: Efficient Distributed Prompt Scheduling for LLM Serving [8.706905652975554]
本稿では,プロンプト共有をターゲットとし最適化する最初の分散LLMサービスプラットフォームであるPrebleを提案する。我々は,新しいスケジューリングアルゴリズムと階層的スケジューリング機構を用いて,KV状態の再利用と計算負荷分散を協調的に最適化する分散スケジューリングシステムを構築した。 2つのオープンソースLCM上での実際のワークロードと要求到着パターンによるPrebleの評価は、平均レイテンシで1.5倍から14.5倍、p99レイテンシで2倍から10倍のSOTAサービスシステムより優れていることを示している。
論文参考訳（メタデータ） (2024-05-08T06:30:58Z)
Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文参考訳（メタデータ） (2024-03-04T19:12:48Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。