論文の概要: Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2601.10560v1
- Date: Thu, 15 Jan 2026 16:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.222432
- Title: Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems
- Title(参考訳): 並列マルチエージェントシステムのためのレイテンシ認識オーケストレーションの学習
- Authors: Xi Shi, Mengxin Zheng, Qian Lou,
- Abstract要約: 並列実行下での明示的なレイテンシを持つマルチエージェントシステムの学習に基づくオーケストレーションについて検討する。
本稿では,ワークアウェアなマルチエージェントオーケストレーションフレームワークであるLAMaSを提案する。
提案手法は,マルチエージェントアーキテクチャサーチにおける最先端のベースラインに比べて,クリティカルパス長を38~46%削減することを示す。
- 参考スコア(独自算出の注目度): 18.192867631682674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems (MAS) enable complex reasoning by coordinating multiple agents, but often incur high inference latency due to multi-step execution and repeated model invocations, severely limiting their scalability and usability in time-sensitive scenarios. Most existing approaches primarily optimize task performance and inference cost, and explicitly or implicitly assume sequential execution, making them less optimal for controlling latency under parallel execution. In this work, we investigate learning-based orchestration of multi-agent systems with explicit latency supervision under parallel execution. We propose Latency-Aware Multi-agent System (LAMaS), a latency-aware multi-agent orchestration framework that enables parallel execution and explicitly optimizes the critical execution path, allowing the controller to construct execution topology graphs with lower latency under parallel execution. Our experiments show that our approach reduces critical path length by 38-46% compared to the state-of-the-art baseline for multi-agent architecture search across multiple benchmarks, while maintaining or even improving task performance. These results highlight the importance of explicitly optimizing latency under parallel execution when designing efficient multi-agent systems. The code is available at https://github.com/xishi404/LAMaS
- Abstract(参考訳): マルチエージェントシステム(MAS)は、複数のエージェントをコーディネートすることで複雑な推論を可能にするが、多段階実行と繰り返しモデル呼び出しによる高い推論遅延が生じ、時間に敏感なシナリオにおけるスケーラビリティとユーザビリティを著しく制限する。
既存のほとんどのアプローチは、主にタスクパフォーマンスと推論コストを最適化し、明示的にあるいは暗黙的にシーケンシャルな実行を仮定する。
本研究では,並列実行時の遅延を明示的に監視したマルチエージェントシステムの学習に基づくオーケストレーションについて検討する。
並列実行を可能にし、クリティカルな実行パスを明示的に最適化し、並列実行下で低レイテンシで実行トポロジグラフを構築することができる、遅延対応マルチエージェントオーケストレーションフレームワークであるLatency-Aware Multi-agent System (LAMaS)を提案する。
提案手法は,タスク性能の維持や改善を図りながら,複数ベンチマークにわたるマルチエージェントアーキテクチャ検索における最先端のベースラインと比較して,クリティカルパス長を38~46%削減することを示す。
これらの結果は、効率的なマルチエージェントシステムの設計において、並列実行時の遅延を明示的に最適化することの重要性を強調している。
コードはhttps://github.com/xishi404/LAMaSで公開されている。
関連論文リスト
- FlashResearch: Real-time Agent Orchestration for Efficient Deep Research [62.03819662340356]
FlashResearchは効率的なディープリサーチのための新しいフレームワークです。
シーケンシャル処理を並列なランタイムオーケストレーションに変換する。
同等のクオリティを維持しつつ、最大5倍のスピードアップを提供できる。
論文 参考訳(メタデータ) (2025-10-02T00:15:39Z) - Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution [48.7788770680643]
Flash-Searcherは、新しい並列エージェント推論フレームワークである。
複雑なタスクを明示的な依存関係でサブタスクに分解し、独立した推論パスの同時実行を可能にする。
BrowseCompでは67.7%の精度で、xbench-DeepSearchでは83%、エージェントの実行手順は現在のフレームワークに比べて最大35%削減されている。
論文 参考訳(メタデータ) (2025-09-29T17:39:30Z) - Accelerating Latency-Critical Applications with AI-Powered Semi-Automatic Fine-Grained Parallelization on SMT Processors [0.0]
同時マルチスレッディング(SMT)技術は、レイテンシクリティカルなアプリケーションの重いスレッドではほとんど使われない。
AIを利用した並列化アドバイザであるAiraを紹介する。
遅延クリティカルなベンチマークをAiraとRelicフレームワークで並列化することにより,ジオ平均性能が17%向上したことを示す。
論文 参考訳(メタデータ) (2025-08-31T14:51:19Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Optimizing Sequential Multi-Step Tasks with Parallel LLM Agents [15.26802977779826]
M1-Parallelは、異なるソリューションパスを明らかにするために、複数のマルチエージェントチームを並行して実行するフレームワークである。
早期終端を持つM1-Parallelは精度を保ちながら最大2.2倍のスピードアップを達成することを示す。
さらに,多種多様な実行計画を奨励する戦略についても検討するが,反復サンプリングによる追加的なパフォーマンス向上は見つからない。
論文 参考訳(メタデータ) (2025-07-11T18:09:22Z) - Faster and Better LLMs via Latency-Aware Test-Time Scaling [47.3923926808606]
テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。
既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。
計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文 参考訳(メタデータ) (2025-05-26T07:51:30Z) - Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。
リクエストはサーバ上のジョブをスケジューリングする重要なステップです。
リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。
我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文 参考訳(メタデータ) (2024-12-03T03:16:12Z) - PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation [9.080650575731152]
PipeInferは、パイプライン化された投機的アクセラレーション技術で、トークン間のレイテンシを低減し、単一要求シナリオにおけるシステム利用を改善する。
PipeInferは、標準的な投機的推論よりも生成速度が2.15$times$改善されている。
論文 参考訳(メタデータ) (2024-07-16T14:52:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。