論文の概要: Efficient Mixture-of-Agents Serving via Tree-Structured Routing, Adaptive Pruning, and Dependency-Aware Prefill-Decode Overlap
- arxiv url: http://arxiv.org/abs/2512.18126v1
- Date: Fri, 19 Dec 2025 23:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.197835
- Title: Efficient Mixture-of-Agents Serving via Tree-Structured Routing, Adaptive Pruning, and Dependency-Aware Prefill-Decode Overlap
- Title(参考訳): 木構造的ルーティング、適応型プルーニング、依存性を考慮したプリフィル・デコードオーバーラップによる効率的な混合処理
- Authors: Zijun Wang, Yijiahao Qi, Hanqiu Chen, Zishen Wan, Gongjin Sun, Dongyang Li, Shuyi Pei, Cong Hao,
- Abstract要約: 混合エージェント(MoA)推論は、密度の高いエージェント間通信と低いハードウェア利用に悩まされる。
本稿では,アルゴリズム・システムの共同設計を通じて,これらのボトルネックをターゲットとしたサービス設計を提案する。
- 参考スコア(独自算出の注目度): 15.352230356342366
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Agents (MoA) inference can suffer from dense inter-agent communication and low hardware utilization, which jointly inflate serving latency. We present a serving design that targets these bottlenecks through an algorithm-system co-design. First, we replace dense agent interaction graphs with a hierarchical tree topology that induces structured sparsity in inter-agent communication. Second, we introduce a runtime adaptive mechanism that selectively terminates or skips downstream agent invocations using semantic agreement and confidence signals from intermediate outputs. Third, we pipeline agent execution by overlapping incremental prefilling with decoding across dependency-related agents, improving utilization and reducing inference latency. Across representative tasks, this approach substantially reduces end-to-end latency (up to 90%) while maintaining comparable accuracy (within $\pm$1%) relative to dense-connectivity MoA baselines, and can improve accuracy in certain settings.
- Abstract(参考訳): 混合エージェント(Mixture-of-Agents、MoA)推論は、エージェント間通信の密集とハードウェア利用の低さに悩まされる可能性がある。
本稿では,アルゴリズム・システムの共同設計を通じて,これらのボトルネックをターゲットとしたサービス設計を提案する。
まず, エージェント間相互作用グラフを階層木トポロジーに置き換え, エージェント間通信における構造的疎度を誘導する。
第2に、中間出力からのセマンティック合意と信頼信号を用いて、下流エージェントの呼び出しを選択的に終了またはスキップする実行時適応機構を導入する。
第3に、依存関係関連エージェント間のデコードでインクリメンタルプリフィルを重複させ、使用率を改善し、推論レイテンシを低減することで、エージェントの実行をパイプライン化する。
代表的タスク全体にわたって、このアプローチは、高密度接続性MoAベースラインに対して同等の精度($\pm$1%)を維持しながら、エンドツーエンドのレイテンシ(最大90%)を大幅に削減し、特定の設定での精度を向上させる。
関連論文リスト
- Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs [72.5651722107621]
InterAgentはテキスト駆動型物理ベースのマルチエージェントヒューマノイド制御のためのエンドツーエンドフレームワークである。
本稿では,マルチストリームブロックを備えた自己回帰拡散トランスフォーマーを提案する。
また,空間依存性の微粒化を明示的に捉えた対話グラフのエクスセプション表現を提案する。
論文 参考訳(メタデータ) (2025-12-08T10:46:01Z) - Distributed Dynamic Associative Memory via Online Convex Optimization [42.94410959330529]
連想メモリ(AM)はキュー応答リコールを可能にしており、最近、トランスフォーマーのようなモダンなニューラルアーキテクチャの基礎となる重要なメカニズムとして認識されている。
本研究では、分散動的連想メモリ(DDAM)の概念を導入し、従来のAMを複数のエージェントと時間変化データストリームによる設定に拡張する。
DDAMでは、各エージェントは独自のアソシエーションを格納するだけでなく、特定の関心行列に基づいて他のエージェントからの情報を選択的に記憶するローカルAMを維持している。
DDAM-TOGDと呼ばれる木に基づく分散勾配オンライン降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-28T16:56:18Z) - AgentAsk: Multi-Agent Systems Need to Ask [26.13279490836716]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステムは、協調的な分業による問題解決能力の向上を約束する。
我々はAgentAskを提案する。AgentAskは軽量でプラグ・アンド・プレイの明確化モジュールで、すべてのエージェント間メッセージを潜在的な障害点として扱い、エラーの伝播を抑えるのに必要最小限の質問を挿入する。
AgentAskは、公開マルチエージェント実装の精度と堅牢性を継続的に改善し、オーバーヘッドを最小限に抑え、レイテンシと余分なコストを5%以下に抑える。
論文 参考訳(メタデータ) (2025-10-08T22:36:05Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。