Fugu-MT 論文翻訳(概要): Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems

論文の概要: Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems

arxiv url: http://arxiv.org/abs/2601.10560v1
Date: Thu, 15 Jan 2026 16:23:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-16 19:43:19.222432
Title: Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems
Title（参考訳）: 並列マルチエージェントシステムのためのレイテンシ認識オーケストレーションの学習
Authors: Xi Shi, Mengxin Zheng, Qian Lou,
Abstract要約: 並列実行下での明示的なレイテンシを持つマルチエージェントシステムの学習に基づくオーケストレーションについて検討する。本稿では,ワークアウェアなマルチエージェントオーケストレーションフレームワークであるLAMaSを提案する。提案手法は,マルチエージェントアーキテクチャサーチにおける最先端のベースラインに比べて,クリティカルパス長を38～46%削減することを示す。
参考スコア（独自算出の注目度）: 18.192867631682674
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-agent systems (MAS) enable complex reasoning by coordinating multiple agents, but often incur high inference latency due to multi-step execution and repeated model invocations, severely limiting their scalability and usability in time-sensitive scenarios. Most existing approaches primarily optimize task performance and inference cost, and explicitly or implicitly assume sequential execution, making them less optimal for controlling latency under parallel execution. In this work, we investigate learning-based orchestration of multi-agent systems with explicit latency supervision under parallel execution. We propose Latency-Aware Multi-agent System (LAMaS), a latency-aware multi-agent orchestration framework that enables parallel execution and explicitly optimizes the critical execution path, allowing the controller to construct execution topology graphs with lower latency under parallel execution. Our experiments show that our approach reduces critical path length by 38-46% compared to the state-of-the-art baseline for multi-agent architecture search across multiple benchmarks, while maintaining or even improving task performance. These results highlight the importance of explicitly optimizing latency under parallel execution when designing efficient multi-agent systems. The code is available at https://github.com/xishi404/LAMaS
Abstract（参考訳）: マルチエージェントシステム(MAS)は、複数のエージェントをコーディネートすることで複雑な推論を可能にするが、多段階実行と繰り返しモデル呼び出しによる高い推論遅延が生じ、時間に敏感なシナリオにおけるスケーラビリティとユーザビリティを著しく制限する。既存のほとんどのアプローチは、主にタスクパフォーマンスと推論コストを最適化し、明示的にあるいは暗黙的にシーケンシャルな実行を仮定する。本研究では,並列実行時の遅延を明示的に監視したマルチエージェントシステムの学習に基づくオーケストレーションについて検討する。並列実行を可能にし、クリティカルな実行パスを明示的に最適化し、並列実行下で低レイテンシで実行トポロジグラフを構築することができる、遅延対応マルチエージェントオーケストレーションフレームワークであるLatency-Aware Multi-agent System (LAMaS)を提案する。提案手法は,タスク性能の維持や改善を図りながら,複数ベンチマークにわたるマルチエージェントアーキテクチャ検索における最先端のベースラインと比較して,クリティカルパス長を38～46%削減することを示す。これらの結果は、効率的なマルチエージェントシステムの設計において、並列実行時の遅延を明示的に最適化することの重要性を強調している。コードはhttps://github.com/xishi404/LAMaSで公開されている。

関連論文リスト

Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文参考訳（メタデータ） (2026-02-05T18:20:21Z)
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models [99.6720868215076]
適応並列推論のためのフレームワークThreadWeaverを紹介します。 ThreadWeaverは、同等サイズの一般的なシーケンシャル推論モデルと同等の精度を達成する。 ThreadWeaverはトークンのレイテンシの平均速度を最大1.53倍にします。
論文参考訳（メタデータ） (2025-11-24T18:55:59Z)
FlashResearch: Real-time Agent Orchestration for Efficient Deep Research [62.03819662340356]
FlashResearchは効率的なディープリサーチのための新しいフレームワークです。シーケンシャル処理を並列なランタイムオーケストレーションに変換する。同等のクオリティを維持しつつ、最大5倍のスピードアップを提供できる。
論文参考訳（メタデータ） (2025-10-02T00:15:39Z)
Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution [48.7788770680643]
Flash-Searcherは、新しい並列エージェント推論フレームワークである。複雑なタスクを明示的な依存関係でサブタスクに分解し、独立した推論パスの同時実行を可能にする。 BrowseCompでは67.7%の精度で、xbench-DeepSearchでは83%、エージェントの実行手順は現在のフレームワークに比べて最大35%削減されている。
論文参考訳（メタデータ） (2025-09-29T17:39:30Z)
Accelerating Latency-Critical Applications with AI-Powered Semi-Automatic Fine-Grained Parallelization on SMT Processors [0.0]
同時マルチスレッディング(SMT)技術は、レイテンシクリティカルなアプリケーションの重いスレッドではほとんど使われない。 AIを利用した並列化アドバイザであるAiraを紹介する。遅延クリティカルなベンチマークをAiraとRelicフレームワークで並列化することにより,ジオ平均性能が17%向上したことを示す。
論文参考訳（メタデータ） (2025-08-31T14:51:19Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
Optimizing Sequential Multi-Step Tasks with Parallel LLM Agents [15.26802977779826]
M1-Parallelは、異なるソリューションパスを明らかにするために、複数のマルチエージェントチームを並行して実行するフレームワークである。早期終端を持つM1-Parallelは精度を保ちながら最大2.2倍のスピードアップを達成することを示す。さらに,多種多様な実行計画を奨励する戦略についても検討するが,反復サンプリングによる追加的なパフォーマンス向上は見つからない。
論文参考訳（メタデータ） (2025-07-11T18:09:22Z)
Faster and Better LLMs via Latency-Aware Test-Time Scaling [47.3923926808606]
テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文参考訳（メタデータ） (2025-05-26T07:51:30Z)
Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。リクエストはサーバ上のジョブをスケジューリングする重要なステップです。リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文参考訳（メタデータ） (2024-12-03T03:16:12Z)
PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation [9.080650575731152]
PipeInferは、パイプライン化された投機的アクセラレーション技術で、トークン間のレイテンシを低減し、単一要求シナリオにおけるシステム利用を改善する。 PipeInferは、標準的な投機的推論よりも生成速度が2.15$times$改善されている。
論文参考訳（メタデータ） (2024-07-16T14:52:02Z)
Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文参考訳（メタデータ） (2020-05-27T01:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。