Fugu-MT 論文翻訳(概要): Towards a Science of Scaling Agent Systems

論文の概要: Towards a Science of Scaling Agent Systems

arxiv url: http://arxiv.org/abs/2512.08296v1
Date: Tue, 09 Dec 2025 06:52:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-10 22:28:07.846261
Title: Towards a Science of Scaling Agent Systems
Title（参考訳）: スケーリングエージェントシステムの科学に向けて
Authors: Yubin Kim, Ken Gu, Chanwoo Park, Chunjong Park, Samuel Schmidgall, A. Ali Heydari, Yao Yan, Zhihan Zhang, Yuchen Zhuang, Mark Malhotra, Paul Pu Liang, Hae Won Park, Yuzhe Yang, Xuhai Xu, Yilun Du, Shwetak Patel, Tim Althoff, Daniel McDuff, Xin Liu,
Abstract要約: エージェント、言語モデル(LM)ベースのシステムでは、推論、計画、行動が現実のAIアプリケーションの主要なパラダイムになりつつある。この広く採用されているにもかかわらず、彼らのパフォーマンスを決定する原則は未定のままである。エージェントシステムのスケーリング原理を導出することで、このギャップに対処する。
参考スコア（独自算出の注目度）: 79.64446272302287
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated R^2=0.513. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.
Abstract（参考訳）: エージェント、言語モデル(LM)ベースのシステムでは、推論、計画、行動が現実のAIアプリケーションの主要なパラダイムになりつつある。この広く採用されているにもかかわらず、彼らの業績を決定する原則は未熟であり、実践者は原則化された設計選択よりもヒューリスティックに頼らざるを得ない。エージェントシステムの定量的スケーリング原理を導出することで、このギャップに対処する。 Finance-Agent、BrowseComp-Plus、PlanCraft、Workbenchの4つのベンチマークでこれを評価しています。 5つの標準アーキテクチャ(Single、Independent、Centralized、Decentralized、Hybrid)を3つのLLMファミリーにインスタンス化して、標準化されたツールとトークン予算を備えた180構成にまたがる制御評価を行う。本稿では, 効率, オーバーヘッド, エラー増幅, 冗長性など, 経験的調整指標を用いた予測モデルを導出し, クロスバリデーションR^2=0.513を実現する。 1) ツール・コーディネーションのトレードオフ: 固定された計算予算の下では、ツール・ヘビーなタスクはマルチエージェントのオーバーヘッドから不均等に悩まされる。 2) 能力飽和: 調整が減少または負のリターン(ベータ=-0.408, p<0.001)を産み出す。 (3) 位相依存性の誤差増幅: 独立エージェントは、未確認の伝搬によってエラーを17.2x増幅する一方、集中的な調整は4.4xに補正する。集中コーディネーションは、財務的推論のような並列化可能なタスクのパフォーマンスを80.9%向上させ、分散コーディネーションは動的なWebナビゲーション(+9.2%対+0.2%)に優れる。しかし、シーケンシャルな推論タスクでは、すべてのマルチエージェント変種がパフォーマンスを39-70%低下させた。このフレームワークは、保留構成の87%の最適調整戦略を予測し、測定可能なタスク特性に基づいたエージェントスケーリングの予測原則を提供する。

関連論文リスト

Molt Dynamics: Emergent Social Phenomena in Autonomous AI Agent Populations [0.0]
MoltBookは大規模なマルチエージェント協調環境であり、770,000以上の自律LDMエージェントが人間の参加なしに対話する。 textitMolt Dynamics:創発的エージェント協調行動、エージェント間コミュニケーションダイナミクス、役割特殊化パターンを紹介する。これらの知見は、分散自律エージェントシステムにおける協調力学の実証的ベースラインを確立した。
論文参考訳（メタデータ） (2026-03-03T22:15:27Z)
Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。 BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文参考訳（メタデータ） (2025-12-20T12:06:13Z)
Multi-Agent Reinforcement Learning and Real-Time Decision-Making in Robotic Soccer for Virtual Environments [0.0]
本稿では,これらの課題に対処するMARL(Multi-Agent Reinforcement Learning)フレームワークを提案する。スケーラビリティを確保するため、平均場理論をHRLフレームワークに統合する。我々の平均場アクター批判法は性能を著しく向上させる。
論文参考訳（メタデータ） (2025-12-02T19:11:44Z)
Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7～39%増加させ、明確な質問を1.5～2.7$times$に減らした。
論文参考訳（メタデータ） (2025-11-11T21:50:44Z)
Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。 AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文参考訳（メタデータ） (2025-08-28T15:52:49Z)
MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-08-13T19:14:48Z)
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)
CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3～36ポイントの絶対的な向上が見られた。
論文参考訳（メタデータ） (2025-07-04T02:20:19Z)
Collaboration Dynamics and Reliability Challenges of Multi-Agent LLM Systems in Finite Element Analysis [3.437656066916039]
インターエイジェントダイナミクスが推論の品質と信頼性にどのように影響するかは、まだ不明である。線形弾性有限要素解析(FEA)のためのAutoGenベースのマルチエージェントフレームワークを用いたこれらのメカニズムについて検討する。 1,120のコントロールされたトライアルから、コラボレーションの有効性は、チームのサイズよりも機能的な相補性に依存することが分かりました。
論文参考訳（メタデータ） (2024-08-23T23:11:08Z)
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T20:52:13Z)
On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文参考訳（メタデータ） (2024-08-02T03:25:20Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文参考訳（メタデータ） (2020-02-20T15:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。