論文の概要: AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.04484v1
- Date: Wed, 03 Jun 2026 06:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.579021
- Title: AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning
- Title(参考訳): AgentJet: エージェント強化学習のための柔軟なSwarmトレーニングフレームワーク
- Authors: Qingxu Fu, Boyin Liu, Shuchang Tao, Zhaoyang Liu, Bolin Ding,
- Abstract要約: AgentJetは、大規模言語モデル(LLM)エージェント強化学習のための分散フレームワークである。
Swarmサーバノードはトレーニング可能なモデルをホストし、GPUクラスタ上で最適化を実行する一方、Swarmクライアントノードは任意のデバイス上で任意のエージェントを実行する。
- 参考スコア(独自算出の注目度): 32.00960368150743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AgentJet, a distributed swarm training framework for large language model (LLM) agent reinforcement learning. Unlike centralized frameworks that tightly couple agent rollouts with model optimization, AgentJet adopts a decoupled multi-node architecture in which swarm server nodes host trainable models and run optimization on GPU clusters, whereas swarm client nodes execute arbitrary agents on arbitrary devices. This design provides capabilities that are difficult to support in centralized frameworks: (1) heterogeneous multi-model reinforcement learning, enabling the training of heterogeneous multi-agent teams with multiple LLM as brains; (2) multi-task cocktail training with isolated agent runtimes; (3) fault-tolerant execution that prevents external environment failures from interrupting the training process; and (4) live code iteration, which allows agents to be edited during training by replacing swarm client nodes. To support efficient RL in multi-model, multi-turn, and multi-agent settings, AgentJet introduces a context tracking module with timeline merging, which consolidates redundant context and achieves a 1.5-10x training speedup. Finally, AgentJet introduces an automated research system that takes a research topic as input and autonomously conducts long-horizon, multi-day RL studies on large-scale clusters. By leveraging the swarm architecture, this system reproduces key exploratory workflows of RL researchers without human intervention during execution.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)エージェント強化学習のための分散SwarmトレーニングフレームワークであるAgentJetを提案する。
エージェントロールアウトとモデル最適化を密結合する集中型フレームワークとは異なり、AgentJetでは、Swarmサーバノードがトレーニング可能なモデルをホストし、GPUクラスタ上で最適化を実行する、分離されたマルチノードアーキテクチャを採用している。
本設計では,1)脳として複数のLDMを持つ異種マルチエージェントチームのトレーニングを可能にする異種多モデル強化学習,2)独立したエージェントランタイムによるマルチタスクカクテルトレーニング,(3)外部環境障害のトレーニングプロセスの中断を防止するフォールトトレラント実行,(4)スワムクライアントノードの置き換えによるエージェントの編集を行うライブコードイテレーションなど,集中型フレームワークではサポートが難しい機能を提供している。
マルチモデル、マルチターン、マルチエージェント設定で効率的なRLをサポートするため、AgentJetはタイムラインをマージしたコンテキストトラッキングモジュールを導入し、冗長なコンテキストを統合し、1.5-10倍のトレーニングスピードアップを実現する。
最後に、AgentJetは、研究トピックを入力として自動研究システムを導入し、大規模クラスタに関する長期のRL研究を自律的に実施する。
このシステムは,Swarmアーキテクチャを活用することで,人間の介入なしにRL研究者の主要な探索ワークフローを再現する。
関連論文リスト
- ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning [54.42973725693]
我々は,エージェント型マルチモーダルモデルを用いて,視覚的理解と生成を統一したGenAgentを導入する。
GenAgentはGenEval++とWISEのベースジェネレータ(FLUX.1-dev)のパフォーマンスを大幅に向上させる。
本フレームワークは,1) 様々な機能を持つジェネレータへのクロスツール一般化,2) インタラクションラウンド間で一貫した改善を伴うテスト時間スケーリング,3) タスクに自動的に適応するタスク適応推論の3つの重要な特性を示す。
論文 参考訳(メタデータ) (2026-01-26T14:49:04Z) - Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO [24.532870400949424]
現在の訓練方法は、システム内のすべてのエージェントに対して統一された大きな言語モデルを訓練する。
これにより、異なるエージェントの基本的な分布が異なるため、パフォーマンスが制限される可能性がある。
垂直多エージェントシステムに対するグループ相対ポリシー最適化の階層的拡張であるM-GRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T12:06:30Z) - AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL [41.847359443133776]
CoA(Chain-of-Agents)は、大規模言語モデル(LLM)推論の新しいパラダイムであり、ネイティブなエンドツーエンドの複雑な問題解決を可能にする。
我々は, エージェント制御微調整のための多エージェント蒸留フレームワークを導入し, 最先端のマルチエージェントシステムをチェーン・オブ・エージェント・トラジェクトリに蒸留する。
次に、検証可能なエージェントタスクに対するエージェント強化学習を用いて、チェーン・オブ・エージェントの問題解決におけるモデルの能力をさらに向上する。
論文 参考訳(メタデータ) (2025-08-06T17:01:02Z) - Agent Lightning: Train ANY AI Agents with Reinforcement Learning [24.13422767414729]
我々は,任意のAIエージェントに対して,強化学習(RL)に基づくLarge Language Models(LLM)のトレーニングを可能にするフレームワークであるAgens Lightningを提案する。
エージェント実行をマルコフ決定プロセスとして定式化することにより、統一データインターフェースを定義し、クレジット代入モジュールを含む階層的RLアルゴリズムLightningRLを提案する。
システム設計のために、トレーニング・エージェント・デアグリゲーションアーキテクチャを導入し、エージェント・オブザーバビリティ・フレームワークをエージェント・ランタイムに導入する。
論文 参考訳(メタデータ) (2025-08-05T17:50:13Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。