論文の概要: Training-Free Agentic AI: Probabilistic Control and Coordination in Multi-Agent LLM Systems
- arxiv url: http://arxiv.org/abs/2603.13256v1
- Date: Tue, 24 Feb 2026 21:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.237411
- Title: Training-Free Agentic AI: Probabilistic Control and Coordination in Multi-Agent LLM Systems
- Title(参考訳): 学習自由エージェントAI:多エージェントLLMシステムにおける確率的制御とコーディネーション
- Authors: Mohammad Parsa Hosseini, Ankit Shah, Saiyra Qureshi, Alex Huang, Connie Miao, Wei Wei,
- Abstract要約: マルチエージェントLLMコラボレーションのための軽量かつトレーニング不要なコントローラであるREDEREFを紹介する。
信念誘導ルーティングはトークンの使用量を28%減らし,エージェントコールを17%減らし,タイム・ツー・サクセスを19%減らした。
その結果, 簡易で解釈可能な確率的制御は, 訓練や微調整を伴わずに, マルチエージェントLLMシステムの効率と堅牢性を有意義に向上させることができることを示した。
- 参考スコア(独自算出の注目度): 6.036652381757588
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-agent large language model (LLM) systems enable complex, long-horizon reasoning by composing specialized agents, but practical deployment remains hindered by inefficient routing, noisy feedback, and high interaction cost. We introduce REDEREF, a lightweight and training-free controller for multi-agent LLM collaboration that improves routing efficiency during recursive delegation. REDEREF integrates (i) belief-guided delegation via Thompson sampling to prioritize agents with historically positive marginal contributions, (ii) reflection-driven re-routing using a calibrated LLM or programmatic judge, (iii) evidence-based selection rather than output averaging, and (iv) memory-aware priors to reduce cold-start inefficiency. Across multi-agent split-knowledge tasks, we show that while recursive retry alone saturates task success, belief-guided routing reduces token usage by 28%, agent calls by 17%, and time-to-success by 19% compared to random recursive delegation, and adapts gracefully under agent or judge degradation. These results demonstrate that simple, interpretable probabilistic control can meaningfully improve the efficiency and robustness of multi-agent LLM systems without training or fine-tuning.
- Abstract(参考訳): マルチエージェント大規模言語モデル (LLM) システムでは, 特殊エージェントを構成することで複雑で長期的推論が可能であるが, 非効率なルーティング, ノイズフィードバック, 高い相互作用コストによって, 実用的展開が妨げられている。
我々は、再帰的デリゲート時のルーティング効率を向上させるマルチエージェントLLM協調のための軽量でトレーニング不要なコントローラであるREDEREFを紹介した。
REDEREFが統合
(i)トンプソンサンプリングによる信仰誘導代表団は、歴史的に肯定的な貢献をしたエージェントを優先する。
二 校正LDM又はプログラムジャッジを用いた反射駆動再描画
三 出力平均よりも証拠に基づく選択
(4) コールドスタートの非効率を抑えるために、メモリアウェアが先行する。
マルチエージェント分割知識タスク全体では、再帰的再帰だけでタスク成功が飽和する一方で、信念誘導ルーティングはトークン使用量を28%削減し、エージェント呼び出しを17%削減し、ランダム再帰的デリゲートと比較してタイム・ツー・サクセスを19%削減し、エージェントや判断の劣化に対して適切に適応することを示した。
これらの結果から, 簡易, 解釈可能な確率的制御は, 訓練や微調整を伴わずに, マルチエージェントLLMシステムの効率と堅牢性を有意義に向上できることが示された。
関連論文リスト
- RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs [16.853362180877593]
我々は、訓練されていないピアエージェントのチームを調整するために、単一のリーダーLDMのみを訓練する階層的なマルチエージェントフレームワークを導入する。
本結果は,複数エージェントLLMシステムにおける協調推論のための単一柔軟なリーダのトレーニングの有効性と効率性を強調した。
論文 参考訳(メタデータ) (2025-07-11T18:34:07Z) - Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems [25.882461853973897]
本稿では、相対報酬の利点を推定して政策更新を導くマルチエージェント不均一グループ政策最適化(MHGPO)を提案する。
MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。
また,効率性と有効性を両立させる3つのグループロールアウトサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2025-06-03T10:17:19Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。