論文の概要: AWorld: Orchestrating the Training Recipe for Agentic AI
- arxiv url: http://arxiv.org/abs/2508.20404v1
- Date: Thu, 28 Aug 2025 04:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.984809
- Title: AWorld: Orchestrating the Training Recipe for Agentic AI
- Title(参考訳): AWorld:エージェントAIのためのトレーニングレシピのオーケストレーション
- Authors: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin,
- Abstract要約: 本稿では,大規模エージェント-環境相互作用のためのオープンソースシステムであるAWorldを紹介する。
タスクをクラスタに分散することで、AWorldは通常の単一ノードのシーケンシャル実行と比較して、エクスペリエンスコレクションを14.6倍高速化する。
我々はQwen3-32Bをベースとしたエージェントをトレーニングし、GAIA全体の精度を21.59%から32.23%に向上させた。
- 参考スコア(独自算出の注目度): 35.94278765364194
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The learning from practice paradigm is crucial for developing capable Agentic AI systems, yet it is severely hampered by inefficient experience generation, a bottleneck especially pronounced in complex benchmarks like GAIA. To address this, we introduce AWorld, an open-source system engineered for large-scale agent-environment interaction. By distributing tasks across a cluster, AWorld accelerates experience collection by 14.6x compared to standard single-node, sequential execution. This critical speedup makes extensive reinforcement learning practical and scalable. Leveraging this capability, we trained a Qwen3-32B-based agent that significantly outperforms its base model, increasing its overall GAIA accuracy from 21.59% to 32.23%. On the benchmark's most challenging levels, our agent achieves a score of 16.33%, surpassing the performance of leading proprietary models. Our open-source system and resulting agent provide a practical blueprint for a complete agentic AI training pipeline, from efficient interaction to demonstrable model improvement.
- Abstract(参考訳): 実践パラダイムからの学習は、有能なエージェントAIシステムの開発には不可欠だが、GAIAのような複雑なベンチマークで特に顕著なボトルネックである、非効率なエクスペリエンス生成によって著しく妨げられている。
そこで本稿では,大規模エージェント環境インタラクション用に設計されたオープンソースシステムであるAWorldを紹介する。
タスクをクラスタに分散することで、AWorldは通常の単一ノードのシーケンシャル実行と比較して、エクスペリエンスコレクションを14.6倍高速化する。
この重要なスピードアップは、広範な強化学習を実用的でスケーラブルにする。
この能力を活用して、Qwen3-32Bをベースとしたエージェントをトレーニングし、GAIA全体の精度を21.59%から32.23%に向上させた。
ベンチマークの最も難しいレベルにおいて、我々のエージェントは16.33%のスコアを獲得し、主要なプロプライエタリモデルの性能を上回っている。
私たちのオープンソースシステムと結果のエージェントは、効率的なインタラクションから実証可能なモデル改善に至るまで、完全なエージェントAIトレーニングパイプラインのための実用的な青写真を提供します。
関連論文リスト
- SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience [71.82719117238307]
本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-06T17:58:46Z) - Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [31.540626068273014]
我々はQwen2.5-72B-Instructに基づくエージェントを訓練し、実世界のソフトウェア工学の課題を解決する。
提案手法は,SWE-bench Verifiedベンチマークにおけるエージェントの成功率を20%の微調整ベースラインから39%に向上させる。
論文 参考訳(メタデータ) (2025-08-05T14:30:47Z) - NatureGAIA: Pushing the Frontiers of GUI Agents with a Challenging Benchmark and High-Quality Trajectory Dataset [16.676904484703]
本稿ではCausal Pathwaysの原理に基づく新しいベンチマークであるNaturalGAIAを紹介する。
このパラダイムは複雑なタスクを検証可能な一連の原子ステップに構造化し、厳密で完全に自動化され、再現可能な評価基準を保証する。
次に、このデータセットを用いて、Q2.5-VL-7Bモデル上でReinforcement FineTuning(RFT)を行う。
論文 参考訳(メタデータ) (2025-08-02T11:53:41Z) - Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。
相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。
実験の結果,MARL法は標準単エージェントRLよりも30~300倍効率が向上した。
論文 参考訳(メタデータ) (2025-07-22T05:51:07Z) - Intelligent Mobile AI-Generated Content Services via Interactive Prompt Engineering and Dynamic Service Provisioning [55.641299901038316]
AI生成コンテンツは、ネットワークエッジで協調的なMobile AIGC Service Providers(MASP)を編成して、リソース制約のあるユーザにユビキタスでカスタマイズされたコンテンツを提供することができる。
このようなパラダイムは2つの大きな課題に直面している: 1) 生のプロンプトは、ユーザーが特定のAIGCモデルで経験していないために、しばしば生成品質が低下する。
本研究では,Large Language Model (LLM) を利用してカスタマイズしたプロンプトコーパスを生成する対話型プロンプトエンジニアリング機構を開発し,政策模倣に逆強化学習(IRL)を用いる。
論文 参考訳(メタデータ) (2025-02-17T03:05:20Z) - MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
MenTORは3つのシミュレーションベンチマークで最先端の手法を上回り、挑戦的な3つの現実世界のロボット操作タスクで平均83%の成功率を達成した。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent
Self-Evolution [92.84441068115517]
Investigate-Consolidate-Exploit(ICE)は、AIエージェントの適応性と柔軟性を高めるための新しい戦略である。
ICEは、真の自己進化のためのタスク間の知識の伝達を促進する。
XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減する。
論文 参考訳(メタデータ) (2024-01-25T07:47:49Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。