論文の概要: Training One Model to Master Cross-Level Agentic Actions via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.09706v1
- Date: Wed, 10 Dec 2025 14:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.562724
- Title: Training One Model to Master Cross-Level Agentic Actions via Reinforcement Learning
- Title(参考訳): 強化学習によるクロスレベルエージェントアクションをマスターするための1つのモデル
- Authors: Kaichen He, Zihao Wang, Muyao Li, Anji Liu, Yitao Liang,
- Abstract要約: CrossAgentは異種作用空間をマスターし、軌道の各ステップで最も効果的なインターフェースを自律的に選択する統合エージェントモデルである。
オープンソースのMinecraft環境における800以上のタスクの実験は、CrossAgentが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 42.1534425503333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paradigm of agentic AI is shifting from engineered complex workflows to post-training native models. However, existing agents are typically confined to static, predefined action spaces--such as exclusively using APIs, GUI events, or robotic commands. This rigidity limits their adaptability in dynamic environments where the optimal granularity of interaction varies contextually. To bridge this gap, we propose CrossAgent, a unified agentic model that masters heterogeneous action spaces and autonomously selects the most effective interface for each step of a trajectory. We introduce a comprehensive training pipeline that integrates cold-start supervised fine-tuning with a Multi-Turn Group Relative Policy Optimization (GRPO) algorithm. This approach enables the agent to learn adaptive action switching--balancing high-level efficiency with low-level precision--without human-specified rules. Extensive experiments on over 800 tasks in the open-world Minecraft environment demonstrate that CrossAgent achieves state-of-the-art performance. By dynamically leveraging the strengths of diverse action spaces, our model significantly outperforms fixed-action baselines, exhibiting superior generalization and efficiency in long-horizon reasoning. All code and models are available at https://github.com/CraftJarvis/OpenHA
- Abstract(参考訳): エージェントAIのパラダイムは、エンジニアリングされた複雑なワークフローから、トレーニング後のネイティブモデルへとシフトしている。
しかしながら、既存のエージェントは通常、API、GUIイベント、ロボットコマンドのみを使用するような、静的で事前定義されたアクションスペースに制限される。
この剛性は、相互作用の最適粒度が文脈的に変化する動的環境における適応性を制限する。
このギャップを埋めるために、異種作用空間をマスターし、軌道の各ステップに対して最も効果的なインターフェースを自律的に選択する統合エージェントモデルであるCrossAgentを提案する。
本稿では,冷間開始型教師付き微調整をマルチTurn Group Relative Policy Optimization (GRPO)アルゴリズムと統合した総合的なトレーニングパイプラインを提案する。
このアプローチにより、エージェントは、人間固有のルールなしで、適応的なアクションスイッチング、低レベルの精度で高レベルの効率をバランスさせることができる。
オープンワールドのMinecraft環境における800以上のタスクに対する大規模な実験は、CrossAgentが最先端のパフォーマンスを達成することを実証している。
多様な作用空間の強みを動的に活用することにより、我々のモデルは固定作用ベースラインを著しく上回り、長い水平推論においてより優れた一般化と効率性を示す。
すべてのコードとモデルはhttps://github.com/CraftJarvis/OpenHAで入手できる。
関連論文リスト
- Multi-Agent Reinforcement Learning and Real-Time Decision-Making in Robotic Soccer for Virtual Environments [0.0]
本稿では,これらの課題に対処するMARL(Multi-Agent Reinforcement Learning)フレームワークを提案する。
スケーラビリティを確保するため、平均場理論をHRLフレームワークに統合する。
我々の平均場アクター批判法は性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-12-02T19:11:44Z) - Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning [32.13266149565313]
UniZeroのようなマルチタスクの世界モデルは、シングルタスク設定で優れている。
勾配の矛盾やモデル塑性の喪失はサンプルの効率を阻害することが多い。
本研究では,これらの課題を2つの相補的な視点 – 単一学習イテレーションと全体学習プロセス – から解決する。
論文 参考訳(メタデータ) (2025-09-09T17:27:53Z) - Towards Agentic AI for Multimodal-Guided Video Object Segmentation [14.877182670778284]
参照ベースのビデオオブジェクトは、外部キューでガイドされたきめ細かいセグメンテーション結果を生成する必要のあるマルチモーダル問題である。
ビジョン言語基礎モデルの最近の進歩は、トレーニングフリーアプローチへの有望な方向性を開いている。
本稿では,この課題を柔軟かつ適応的に解決する新しいエージェントシステムであるMulti-Modal Agentを提案する。
論文 参考訳(メタデータ) (2025-08-14T12:11:15Z) - Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。
LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文 参考訳(メタデータ) (2025-05-21T09:35:43Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Agent models: Internalizing Chain-of-Action Generation into Reasoning models [15.954047804223379]
我々は、emphChain-of-Action(CoA)の発生を内部化するemphLarge Agent Models(LAMs)を配置する。
提案するAutoCoAフレームワークは,教師付き微調整(SFT)と強化学習(RL)を組み合わせたものである。
主なコンポーネントは、ステップレベルのアクショントリガー、軌道レベルのCoA、実際の環境相互作用コストを低減するための内部世界モデルである。
論文 参考訳(メタデータ) (2025-03-09T12:19:47Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。