Fugu-MT 論文翻訳(概要): Improving the End-to-End Efficiency of Offline Inference for Multi-LLM Applications Based on Sampling and Simulation

論文の概要: Improving the End-to-End Efficiency of Offline Inference for Multi-LLM Applications Based on Sampling and Simulation

arxiv url: http://arxiv.org/abs/2503.16893v1
Date: Fri, 21 Mar 2025 06:56:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.316498
Title: Improving the End-to-End Efficiency of Offline Inference for Multi-LLM Applications Based on Sampling and Simulation
Title（参考訳）: サンプリングとシミュレーションに基づくマルチLLMアプリケーションのオフライン推論のエンドツーエンド効率の改善
Authors: Jingzhi Fang, Yanyan Shen, Yue Wang, Lei Chen,
Abstract要約: 単一ノードマルチGPU環境におけるマルチLLMアプリケーションのオフラインエンドツーエンド推論効率を改善することを目的としている。そこで本研究では,モデル実行時間を推定するためのサンプリング-then-simulation法を提案する。 3つのアプリケーションと混在アプリケーションの実験は、SamuLLMが1.0-2.4$times$ end-to-endのスピードアップを達成できることを示している。
参考スコア（独自算出の注目度）: 23.318601470116498
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) have shown great success in many tasks, they are used in various applications. While a lot of works have focused on the efficiency of single-LLM application (e.g., offloading, request scheduling, parallelism strategy selection), multi-LLM applications receive less attention, particularly in offline inference scenarios. In this work, we aim to improve the offline end-to-end inference efficiency of multi-LLM applications in the single-node multi-GPU environment. The problem involves two key decisions: (1) determining which LLMs to run concurrently each time (we may not run all the models at the same time), and (2) selecting a parallelism strategy to use for each LLM. This problem is NP-hard. Naive solutions may not work well because the running time for a model to complete a set of requests depends on the request workload and the selected parallelism strategy, and they lack an accurate model of the running time. As the LLM output lengths are unknown before running, to estimate the model running time, we propose a sampling-then-simulation method which first estimates the output lengths by sampling from an empirical cumulative function we obtained from a large dataset in advance, and then simulates the LLM inference process accordingly. Based on the simulation, we estimate the per-iteration latencys to get the total latency. A greedy method is proposed to optimize the scheduling of the LLMs in the application across the GPUs. We then propose a framework SamuLLM which contains two phases: planning, which calls the greedy method for an application and running, which runs the application and dynamically adjust the model scheduling based on the runtime information. Experiments on 3 applications and a mixed application show that SamuLLM can achieve 1.0-2.4$\times$ end-to-end speedups compared to the competitors.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くのタスクで大きな成功を収めているため、様々なアプリケーションで使われている。シングルLLMアプリケーションの効率性(例えば、オフロード、リクエストスケジューリング、並列化戦略選択など)に多くの作業が焦点を当てていますが、特にオフラインの推論シナリオでは、マルチLLMアプリケーションはあまり注目されません。本研究では,単一ノードマルチGPU環境におけるマルチLLMアプリケーションのオフラインエンドツーエンド推論効率を改善することを目的とする。 1 つの主要な決定は、1 つの LLM が同時に実行されるかを決定すること(全てのモデルを同時に実行することはできないかもしれない)、2 つの LLM に対して並列性戦略を選択することである。この問題はNPハードである。一連の要求を完了するためのモデルの実行時間は、要求のワークロードと選択された並列化戦略に依存しており、実行時間の正確なモデルがないため、ナイーブなソリューションはうまく機能しない可能性がある。 LLMの出力長は実行前に不明であるため、モデル実行時間を推定するために、まず、大データセットから得られた経験的累積関数からサンプリングして出力長を推定し、それに応じてLLMの推論過程をシミュレートするサンプリング-then-simulation法を提案する。シミュレーションに基づき,全遅延を推定し,全遅延を推定する。アプリケーション内のLLMのスケジューリングをGPU間で最適化するために,greedy法を提案する。次に、アプリケーションと実行のためのgreedyメソッドを呼び出し、アプリケーションを実行し、実行時情報に基づいてモデルスケジューリングを動的に調整するプランニングという、2つのフェーズを含むSamuLLMフレームワークを提案する。 3つのアプリケーションと混在アプリケーションの実験から、SamuLLMは競合他社と比較して1.0-2.4$\times$ end-to-endのスピードアップを達成できる。

関連論文リスト

Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
Optimizing Model Selection for Compound AI Systems [76.69936664916061]
本稿では,複合システムにおけるモデル選択のための効率的なフレームワークを提案する。 1つのモジュールを反復的に選択し、最も高いモジュールレベルのパフォーマンスを持つモデルを割り当てます。すべてのモジュールで同じLLMを使用する場合と比較して、5%-70%の精度向上が期待できる。
論文参考訳（メタデータ） (2025-02-20T18:36:25Z)
Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文参考訳（メタデータ） (2025-02-19T18:59:30Z)
Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。リクエストはサーバ上のジョブをスケジューリングする重要なステップです。リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文参考訳（メタデータ） (2024-12-03T03:16:12Z)
Is the GPU Half-Empty or Half-Full? Practical Scheduling Techniques for LLMs [3.7758841366694353]
文献および実用サービスシステムからスケジューリング手法を調査する。文献からのスケジューラは、しばしば優れたパフォーマンスを得るが、かなりの複雑さをもたらす。対照的に、実際のデプロイメントにおけるスケジューラは、しばしばテーブルに簡単にパフォーマンス向上を残しますが、実装、デプロイ、設定が容易です。
論文参考訳（メタデータ） (2024-10-23T13:05:46Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Teola: Towards End-to-End Optimization of LLM-based Applications [13.478509565946354]
大規模言語モデル(LLM)ベースのアプリケーションは、エンドツーエンドのレイテンシに寄与する。既存のフレームワークでは、各モジュールに最適化を限定するタスクモジュールによる粗粒度のオーケストレーションが採用されている。タスクプリミティブを基本単位として,各クエリのワークフローをプリミティブレベルのデータフローグラフとして表現する,詳細なエンドツーエンドオーケストレーションを提案する。
論文参考訳（メタデータ） (2024-06-29T05:59:53Z)
Preble: Efficient Distributed Prompt Scheduling for LLM Serving [8.706905652975554]
本稿では,プロンプト共有をターゲットとし最適化する最初の分散LLMサービスプラットフォームであるPrebleを提案する。我々は,新しいスケジューリングアルゴリズムと階層的スケジューリング機構を用いて,KV状態の再利用と計算負荷分散を協調的に最適化する分散スケジューリングシステムを構築した。 2つのオープンソースLCM上での実際のワークロードと要求到着パターンによるPrebleの評価は、平均レイテンシで1.5倍から14.5倍、p99レイテンシで2倍から10倍のSOTAサービスシステムより優れていることを示している。
論文参考訳（メタデータ） (2024-05-08T06:30:58Z)
Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction [8.705908108054878]
大型モデル(LLM)は、多くのドメインにわたるAIアプリケーションの新しい波を駆動している。 LLM出力シーケンス長の予測に光プロキシモデルを用いる投機的ショートストジョブファースト(SSJF)スケジューラを提案する。
論文参考訳（メタデータ） (2024-04-12T14:46:15Z)
Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文参考訳（メタデータ） (2024-03-04T19:12:48Z)
Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [18.402877904882107]
大規模な言語モデル(LLM)は、ベンチマークAsyncHowのタスク解決プロセスに関するイラストが提供されないと、動作が悪くなります。そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文参考訳（メタデータ） (2024-02-05T08:26:33Z)
RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything [117.02741621686677]
この研究はリアルタイム多目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を探索する。インタラクティブセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションの3つの基本的なサブタスクを含んでいる。動的畳み込みに基づく新しい動的畳み込み手法であるReal-Time Multi-Purpose SAM(RMP-SAM)を提案する。効率的なエンコーダと、プロンプト駆動のデコードを実行するための効率的なデカップリングアダプタを含む。
論文参考訳（メタデータ） (2024-01-18T18:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。