論文の概要: AgentBalance: Backbone-then-Topology Design for Cost-Effective Multi-Agent Systems under Budget Constraints
- arxiv url: http://arxiv.org/abs/2512.11426v1
- Date: Fri, 12 Dec 2025 10:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.724185
- Title: AgentBalance: Backbone-then-Topology Design for Cost-Effective Multi-Agent Systems under Budget Constraints
- Title(参考訳): AgentBalance:予算制約下における費用効果多エージェントシステムのバックボーン理論設計
- Authors: Shuowei Cai, Yansong Ning, Hao Liu,
- Abstract要約: 大規模言語モデル(LLM)ベースのマルチエージェントシステム(MAS)は、Webスケールアプリケーションにとって必須のビルディングブロックになりつつある。
我々は、トークンコストと遅延の明確な予算の下で、コスト効率の良いMASを構築するためのフレームワークであるAgentBalanceを提案する。
- 参考スコア(独自算出の注目度): 7.38359558170225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based multi-agent systems (MAS) are becoming indispensable building blocks for web-scale applications such as web search, social network analytics, and online customer support, where cost-effectiveness is increasingly the primary constraint for large-scale deployment. While recent work improves MAS cost-effectiveness by shaping inter-agent communication topologies and selecting agent backbones, it rarely models and optimizes under explicit token-cost and latency budgets that reflect deployment constraints. This often leads to topology-first designs and suboptimal cost-effectiveness when budgets are binding. We present AgentBalance, a framework for constructing cost-effective MAS under explicit token-cost and latency budgets via a backbone-then-topology design. AgentBalance first performs backbone-oriented agent generation, constructing agents with heterogeneous backbones through LLM pool construction, pool selection, and role-backbone matching. It then performs adaptive MAS topology generation, guiding inter-agent communication via agent representation learning, gating, and latency-aware topology synthesis. Experiments on benchmarks with 14 candidate LLM backbones show that AgentBalance achieves up to 10% and 22% performance gains under matched token-cost and latency budgets, respectively, and yields strong AUC on performance-versus-budget curves across benchmarks. AgentBalance also functions as a plug-in for existing MAS, improving performance under the same token-cost and latency constraints, and it generalizes well to unseen LLMs for practical, budget-aware deployment. Code: https://github.com/usail-hkust/AgentBalance
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのマルチエージェントシステム(MAS)は、Web検索、ソーシャルネットワーク分析、オンライン顧客サポートなどのWebスケールアプリケーションにとって必須のビルディングブロックになりつつある。
最近の作業では、エージェント間通信トポロジとエージェントバックボーンの選択によってMASのコスト効率が向上しているが、デプロイメントの制約を反映したトークンコストとレイテンシの明確な予算の下で、モデルと最適化はめったに行われない。
これはしばしば、トポロジ優先の設計と予算が束縛されている場合の最適コスト効果につながる。
本稿では,コスト効率のよいMASを構築するためのフレームワークであるAgentBalanceについて述べる。
AgentBalanceはまずバックボーン指向のエージェント生成を実行し、LLMプールの構築、プール選択、ロール-バックボーンマッチングを通じて、異種バックボーンを持つエージェントを構築する。
その後、適応MASトポロジ生成を行い、エージェント表現学習、ゲーティング、遅延認識トポロジ合成を通じてエージェント間通信を誘導する。
14の候補LLMバックボーンによるベンチマーク実験では、AgentBalanceは、それぞれ一致したトークンコストとレイテンシの予算で最大10%と22%のパフォーマンス向上を達成した。
AgentBalanceは既存のMAS用のプラグインとしても機能し、トークンコストとレイテンシの制約が同じでパフォーマンスが向上する。
コード:https://github.com/usail-hkust/AgentBalance
関連論文リスト
- BAMAS: Structuring Budget-Aware Multi-Agent Systems [18.99441110805831]
大規模言語モデル(LLM)ベースのマルチエージェントシステムは、自律エージェントが複雑なタスクを解くための強力なパラダイムとして登場した。
予算を考慮したマルチエージェントシステム構築のための新しいアプローチであるBAMASを提案する。
その結果、BAMASはコストを最大86%削減しながら同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-26T16:48:18Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - Budget-Aware Tool-Use Enables Effective Agent Scaling [82.6942342482552]
大規模言語モデル(LLM)におけるタスク間のテスト時間計算のスケーリングによるパフォーマンス向上
本研究では,これらのエージェントを,Web検索エージェントを中心に,明示的なツールコール予算の下で効果的にスケールする方法について検討する。
私たちは、エージェントに継続的な予算意識を提供する軽量プラグインであるBudget Trackerを紹介します。
論文 参考訳(メタデータ) (2025-11-21T07:18:55Z) - Controlling Performance and Budget of a Centralized Multi-agent LLM System with Reinforcement Learning [53.57360296655208]
大規模言語モデル(LLM)は、ドメイン間で補完的な強みを示し、様々な推論コストが伴う。
既存のアプローチは分散化されたフレームワークに依存しており、入力毎に複数のLSMを呼び出すため、実質的で制御されていない推論コストが発生する。
我々は,LLMコントローラが,コスト効率とコスト制御が可能な方法で,専門家モデルのプールを選択的にコーディネートする,集中型マルチLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-04T17:35:17Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - MAS$^2$: Self-Generative, Self-Configuring, Self-Rectifying Multi-Agent Systems [40.44248136759827]
マルチエージェントシステムを自律的に設計するマルチエージェントシステムであるMAS$2$を紹介する。
MAS$2$は、最先端のMASに対して最大19.6%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2025-09-29T06:20:10Z) - syftr: Pareto-Optimal Generative AI [40.80352098169579]
syftrはエージェントと非エージェントのRAG構成の広い領域で効率的な多目的探索を行うフレームワークである。
Syftrは、最も正確な流れの正確さを保ちながら、平均して9倍のコストで流れを見つける。
論文 参考訳(メタデータ) (2025-05-26T17:43:13Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Cut the Crap: An Economical Communication Pipeline for LLM-based Multi-Agent Systems [42.137278756052595]
$texttAgentPrune$は、メインストリームのマルチエージェントシステムにシームレスに統合できる。
textbf(I)は、既存のマルチエージェントフレームワークとシームレスに統合され、28.1%sim72.8%downarrow$トークンの削減を行う。
textbf(III)は2種類のエージェントベースの敵攻撃に対して3.5%sim10.8%uparrow$パフォーマンス向上で防御に成功した。
論文 参考訳(メタデータ) (2024-10-03T14:14:31Z) - A Unified and Efficient Coordinating Framework for Autonomous DBMS
Tuning [34.85351481228439]
既存のMLベースのエージェントを効率的に活用するための統合コーディネートフレームワークを提案する。
機械学習ベースのエージェントを効果的に利用し、ワークロードの実行時間に1.414.1Xのスピードアップでより良い設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-03-10T05:27:23Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。