論文の概要: Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs
- arxiv url: http://arxiv.org/abs/2603.22206v1
- Date: Mon, 23 Mar 2026 17:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.802489
- Title: Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs
- Title(参考訳): Chimera: 異種LLMのためのレイテンシとパフォーマンスを考慮したマルチエージェントサービング
- Authors: Kangqi Ni, Wenyue Hua, Xiaoxiang Shi, Jiang Guo, Shiyu Chang, Tianlong Chen,
- Abstract要約: ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
- 参考スコア(独自算出の注目度): 62.17306142810532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent applications often execute complex tasks as multi-stage workflows, where each stage is an LLM call whose output becomes part of context for subsequent steps. Existing LLM serving systems largely assume homogeneous clusters with identical model replicas. This design overlooks the potential of heterogeneous deployments, where models of different sizes and capabilities enable finer trade-offs between latency and performance. However, heterogeneity introduces new challenges in scheduling across models with diverse throughput and performance. We present Chimera, a predictive scheduling system for multi-agent workflow serving on heterogeneous LLM clusters that jointly improves end-to-end latency and task performance. Chimera applies semantic routing to estimate per-model confidence scores for each request, predicts the total remaining output length of the workflow, and estimates per-model congestion using in-flight predicted token volumes for load balancing. We evaluate Chimera on representative agentic workflows for code generation and math reasoning using multiple heterogeneous LLM configurations. Across comparable settings, Chimera traces the best latency-performance frontier, reducing end-to-end latency by 1.2--2.4$\times$ and improving task performance by 8.0-9.5 percentage points on average over competitive baselines including vLLM.
- Abstract(参考訳): マルチエージェントアプリケーションは複雑なタスクを多段階ワークフローとして実行し、各ステージはLCMコールであり、出力はその後のステップのコンテキストの一部となる。
既存のLLMサービスシステムは、ほぼ同一のモデルレプリカを持つ均一なクラスタを前提としている。
この設計は、異なるサイズと能力のモデルがレイテンシとパフォーマンスのトレードオフをより細かくする、異種デプロイメントの可能性を見落としている。
しかし、ヘテロジニティは、さまざまなスループットとパフォーマンスを持つモデル間のスケジューリングにおいて、新たな課題をもたらす。
本稿では,マルチエージェントワークフローの予測スケジューリングシステムであるChimeraについて述べる。
Chimeraは、各要求に対するモデル毎の信頼性スコアを推定するためにセマンティックルーティングを適用し、ワークフローの残りの出力長を予測し、ロードバランシングのために、飛行中の予測トークンボリュームを使用してモデル毎の混雑を推定する。
複数の異種LLM構成を用いたコード生成と数理推論のための代表エージェントワークフロー上でのChimeraの評価を行った。
同等の設定で、Chimeraは最高のレイテンシパフォーマンスフロンティアをトレースし、エンドツーエンドのレイテンシを1.2-2.4$\times$に削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
関連論文リスト
- Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks [6.447439020088275]
AIのブレークスルーは、大規模言語モデル(LLM)ベースのアプリケーションの爆発を加速させた。
センスモデルは、その強力な能力、スケーラビリティ、微調整の容易さ、さまざまなタスクにおける汎用性のために、引き続き支配的です。
本稿では,ノード内並列化方式に着目した2つの代表的高密度LLMの負荷について検討する。
論文 参考訳(メタデータ) (2026-03-05T21:33:24Z) - Rethinking the Value of Multi-Agent Workflow: A Strong Single Agent Baseline [38.16649115214312]
一つのエージェントがKVキャッシュの再利用による効率上の利点を生かして均一性を実現できることを示す。
本稿では,単一エージェントの実行を自動的に調整し,推論コストを削減するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-18T08:16:09Z) - Difficulty-Aware Agentic Orchestration for Query-Specific Multi-Agent Workflows [5.376980683850103]
本稿では,予測困難により誘導されるクエリ固有多エージェントを生成するDifficulty-Aware Agentic Orchestration (DAAO)を提案する。
DAAOは、精度と推論効率の両方において、従来のマルチエージェントシステムを上回る。
論文 参考訳(メタデータ) (2025-09-14T03:57:43Z) - Optimizing Sequential Multi-Step Tasks with Parallel LLM Agents [15.26802977779826]
M1-Parallelは、異なるソリューションパスを明らかにするために、複数のマルチエージェントチームを並行して実行するフレームワークである。
早期終端を持つM1-Parallelは精度を保ちながら最大2.2倍のスピードアップを達成することを示す。
さらに,多種多様な実行計画を奨励する戦略についても検討するが,反復サンプリングによる追加的なパフォーマンス向上は見つからない。
論文 参考訳(メタデータ) (2025-07-11T18:09:22Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。