論文の概要: Characterizing Performance-Energy Trade-offs of Large Language Models in Multi-Request Workflows
- arxiv url: http://arxiv.org/abs/2604.09611v1
- Date: Thu, 12 Mar 2026 10:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.552467
- Title: Characterizing Performance-Energy Trade-offs of Large Language Models in Multi-Request Workflows
- Title(参考訳): 大規模言語モデルの多要求ワークフローにおける性能-エネルギートレードオフの特徴付け
- Authors: Md. Monzurul Amin Ifath, Israat Haque,
- Abstract要約: 大規模言語モデル (LLM) は、マルチ要求システムを形成するアプリケーションでますます使われている。
推論中にレイテンシとエネルギー需要を増幅する。
本稿では,マルチ要求推論における性能-エネルギートレードオフの体系的特徴について述べる。
- 参考スコア(独自算出の注目度): 0.8250374560598494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in applications forming multi-request workflows like document summarization, search-based copilots, and multi-agent programming. While these workflows unlock richer functionality, they also amplify latency and energy demand during inference. Existing measurement and benchmarking efforts either focus on assessing LLM inference systems or consider single-request evaluations, overlooking workflow dependencies and cross-request interactions unique to multi-request workflows. Moreover, the energy usage of such interdependent LLM calls remains underexplored. To address these gaps, this paper presents the first systematic characterization of performance-energy trade-offs in multi-request LLM inference. We develop four representative workloads capturing sequential, interactive, agentic, and composite patterns common in modern deployments. Using an NVIDIA A100 testbed with state-of-the-art serving systems (vLLM and Parrot), we analyze how key energy knobs affect latency, throughput, and component-level energy use. Our findings reveal batch size as the most impactful lever, though benefits are workload dependent. While optimal batching benefits workloads with large shared prompts, it is ineffective for sequential summarization and only partially effective for multi-agent coding. GPU power capping provides modest but predictable savings, while output length induces linear energy scaling with limited efficiency gains. We further show that engine-level optimizations in vLLM maintain higher GPU utilization and efficiency, especially for decode-heavy workloads, while Parrot's workflow-aware scheduling achieves lower energy consumption under strict power constraints. These findings offer actionable guidelines for developers and system operators designing performance- and energy-aware LLM serving systems in emerging multi-request workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文書要約、検索ベースのコピロ、マルチエージェントプログラミングといったマルチリクエストワークフローを形成するアプリケーションにおいて、ますます使われている。
これらのワークフローは、よりリッチな機能を解放する一方で、推論時のレイテンシとエネルギー需要を増幅する。
既存の測定とベンチマークの取り組みは、LLM推論システムの評価や、単一要求評価、ワークフロー依存性の見落とし、マルチ要求ワークフローに特有の相互要求インタラクションに重点を置いている。
さらに、そのような相互依存型LLMコールのエネルギー利用については、未検討のままである。
これらのギャップに対処するため,マルチリクエストLSM推論における性能-エネルギートレードオフの体系的評価を行った。
現代のデプロイメントに共通するシーケンシャル、インタラクティブ、エージェント、複合パターンをキャプチャする4つの代表的なワークロードを開発します。
最先端のサービスシステム(vLLMとParrot)を備えたNVIDIA A100テストベッドを使用して、重要なエネルギーノブがレイテンシ、スループット、コンポーネントレベルのエネルギー使用にどのように影響するかを分析する。
その結果,バッチサイズが最も影響のあるレバーであることが判明した。
バッチ処理は大きな共有プロンプトを持つワークロードの恩恵を受けるが、シーケンシャルな要約には有効ではなく、マルチエージェントコーディングには部分的に有効である。
GPUパワーキャッピングは、控えめだが予測可能な節約を提供し、出力長は、限られた効率向上で線形エネルギースケーリングを誘導する。
さらに、エンジンレベルのvLLMの最適化は、特にデコード重負荷に対して、GPU利用率と効率を向上し、一方、Parrotのワークフロー対応スケジューリングは、厳しい電力制約下での低エネルギー消費を実現していることを示す。
これらの知見は、新しいマルチリクエストワークフローにおいて、パフォーマンスとエネルギーを意識したLLMサービスシステムを設計する開発者やシステムオペレーターに対して実行可能なガイドラインを提供する。
関連論文リスト
- Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文 参考訳(メタデータ) (2026-03-23T17:01:42Z) - Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective [3.9457939396735573]
Heliumはワークフロー対応のサービスフレームワークで、エージェントワークロードをクエリプランとしてモデル化し、LLM呼び出しを第一級演算子として扱う。
Heliumは従来のクエリ最適化の原則をLLMサービスにブリッジし、最先端のエージェントサービスシステムよりも最大1.56倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-03-17T04:03:18Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。
様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文 参考訳(メタデータ) (2025-09-12T16:05:07Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。