論文の概要: SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees
- arxiv url: http://arxiv.org/abs/2605.05216v1
- Date: Fri, 17 Apr 2026 01:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.601796
- Title: SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees
- Title(参考訳): SAT:単調な改善保証によるコーディネータフリープラグとマルチLLMトレーニングのためのシークエンシャルエージェントチューニング
- Authors: Yi Xie, Yangyang Xu, Yi Fan, Bo Liu,
- Abstract要約: 多数のパラメータを持つ大規模言語モデル(LLM)は、高いパフォーマンスを実現するが、しばしばデプロイするのに非常に高価である。
最近の研究は、より小さく、より効率的なLLMのチームを使って、単一の大きなモデルに合わせたり、あるいは性能を上回るものを探っている。
我々は、コーディネータフリートレーニングパラダイムであるSequential Agent Tuning(SAT)を導入することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 20.52379192411959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with a large number of parameters achieve strong performance but are often prohibitively expensive to deploy. Recent work explores using teams of smaller, more efficient LLMs that collectively match or even outperform a single large model. However, jointly updating multiple agents introduces compounding distribution shifts, making coordination and stability during training difficult. We address this by introducing Sequential Agent Tuning (SAT), a coordinator-free training paradigm. SAT represents the team as a factorized policy and employs block-coordinate updates over agents, enabling scalable, decentralized training without a central controller. Specifically, we develop a sequence-aware, on-policy advantage estimator that conditions on the evolving team policy, coupled with per-agent KL trust regions that isolate occupancy drift. Theoretically, this framework provides two critical guarantees. First, it ensures monotonic improvement, stabilizing the training process. Second, it establishes provable plug-and-play invariance: any agent can be upgraded to a stronger model without retraining the rest of the team, with a formal guarantee that the performance bound improves. Empirically, a team of three 4B agents (12B total) trained with SAT surpasses the much larger Qwen3-32B on AIME24/25 benchmarks by 3.9\% on average. We validate our plug-and-play theory by swapping in two 8B agents, which boosts the composite score by 10.4\%. We provide code and appendix of proof at https://github.com/Yydc/SAT-AAMAS
- Abstract(参考訳): 多数のパラメータを持つ大規模言語モデル(LLM)は、高いパフォーマンスを実現するが、しばしばデプロイするのに非常に高価である。
最近の研究は、より小さく、より効率的なLLMのチームを使って、単一の大きなモデルに合わせたり、あるいは性能を上回るものを探っている。
しかし、複数のエージェントを共同で更新することは、複合的な分散シフトを導入し、トレーニング中の調整と安定性を困難にする。
我々は、コーディネータフリートレーニングパラダイムであるSequential Agent Tuning(SAT)を導入することで、この問題に対処する。
SATは、そのチームを分解ポリシーとして表現し、エージェントよりもブロックコーディネートアップデートを採用し、中央のコントローラなしでスケーラブルで分散的なトレーニングを可能にする。
具体的には、進化するチーム方針の条件と、占有ドリフトを隔離するKL単位の信頼領域を併用した、シーケンス対応のオン・ポリティクス・アドバンテージ・エデュケータを開発する。
理論的には、このフレームワークは2つの重要な保証を提供する。
まず、単調な改善を確実にし、トレーニングプロセスを安定化します。
第二に、証明可能なプラグアンドプレイの不変性を確立します。任意のエージェントは、チームの他の部分を再トレーニングすることなく、より強力なモデルにアップグレードすることができます。
実験的に、SATで訓練された3つの4Bエージェント(合計12B)のチームは、AIME24/25ベンチマークのQwen3-32Bを平均3.9%上回った。
2つの8Bエージェントを交換することでプラグ・アンド・プレイ理論が検証され、合成スコアが10.4\%向上する。
We provide code and appendix of proof at https://github.com/Yydc/SAT-AAMAS
関連論文リスト
- Small Model as Master Orchestrator: Learning Unified Agent-Tool Orchestration with Parallel Subtask Decomposition [61.291733522717415]
Agent-as-Toolは並列オーケストレーションのパラダイムであり、エージェントとツールの両方を標準化された学習可能なアクション空間に緩和する。
ParaManagerは、サブタスク解決から計画決定を分離し、ステート対応の並列サブタスク分解、デリゲート、非同期実行を可能にする。
実験により、ParaManagerは複数のベンチマークで高い性能を示し、目に見えないモデルプールの下で堅牢な一般化を示す。
論文 参考訳(メタデータ) (2026-04-18T14:41:27Z) - Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning [112.16686518063456]
textbfMulti-Agent Test-Time Reinforcement Learning (MATTRL)を導入する。
MATTRLは、マルチターンの議論、テストタイムの経験の検索と統合、最終的な意思決定のコンセンサスに到達するための、複数の専門家のチームを形成する。
MATTRLは、医学、数学、教育の挑戦的なベンチマーク全体にわたって、マルチエージェントベースラインで平均3.67%、同等のシングルエージェントベースラインで平均8.67%の精度を向上する。
論文 参考訳(メタデータ) (2026-01-14T17:57:43Z) - Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO [24.532870400949424]
現在の訓練方法は、システム内のすべてのエージェントに対して統一された大きな言語モデルを訓練する。
これにより、異なるエージェントの基本的な分布が異なるため、パフォーマンスが制限される可能性がある。
垂直多エージェントシステムに対するグループ相対ポリシー最適化の階層的拡張であるM-GRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T12:06:30Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。