論文の概要: Co-Evolving Complexity: An Adversarial Framework for Automatic MARL Curricula
- arxiv url: http://arxiv.org/abs/2509.03771v2
- Date: Mon, 29 Sep 2025 15:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.199894
- Title: Co-Evolving Complexity: An Adversarial Framework for Automatic MARL Curricula
- Title(参考訳): 共進化複雑性:自動MARLキュリキュラのための逆フレームワーク
- Authors: Brennen Hill,
- Abstract要約: 汎用知的エージェントは、それらが訓練される環境に本質的に関連している。
手作りの環境は有限であり、しばしば暗黙のバイアスを含むため、エージェントが真に一般化可能で堅牢なスキルを開発する可能性を制限する。
本稿では,環境生成過程を対戦ゲームとしてフレーミングすることで,無拘束かつ適応的な課題のカリキュラムを生成するパラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of general-purpose intelligent agents is intrinsically linked to the environments in which they are trained. While scaling models and datasets has yielded remarkable capabilities, scaling the complexity, diversity, and interactivity of environments remains a crucial bottleneck. Hand-crafted environments are finite and often contain implicit biases, limiting the potential for agents to develop truly generalizable and robust skills. In this work, we propose a paradigm for generating a boundless and adaptive curriculum of challenges by framing the environment generation process as an adversarial game. We introduce a system where a team of cooperative multi-agent defenders learns to survive against a procedurally generative attacker. The attacker agent learns to produce increasingly challenging configurations of enemy units, dynamically creating novel worlds tailored to exploit the defenders' current weaknesses. Concurrently, the defender team learns cooperative strategies to overcome these generated threats. This co-evolutionary dynamic creates a self-scaling environment where complexity arises organically from the adversarial interaction, providing an effectively infinite stream of novel and relevant training data. We demonstrate that with minimal training, this approach leads to the emergence of complex, intelligent behaviors, such as flanking and shielding by the attacker, and focus-fire and spreading by the defenders. Our findings suggest that adversarial co-evolution is a powerful mechanism for automatically scaling environmental complexity, driving agents towards greater robustness and strategic depth.
- Abstract(参考訳): 汎用知的エージェントの進歩は、それらが訓練されている環境と本質的に関連している。
モデルとデータセットのスケーリングは目覚ましい機能を生み出していますが、複雑さ、多様性、相互作用性のスケーリングは依然として重要なボトルネックです。
手作りの環境は有限であり、しばしば暗黙のバイアスを含むため、エージェントが真に一般化可能で堅牢なスキルを開発する可能性を制限する。
本研究では,環境生成過程を対戦ゲームとしてフレーミングすることで,無拘束かつ適応的な課題のカリキュラムを生成するパラダイムを提案する。
協調型マルチエージェントディフェンダーのチームが、手続き的に生成する攻撃者に対して生き残ることを学習するシステムを導入する。
攻撃エージェントは、敵部隊のますます困難な構成を作り出すことを学び、守備隊の現在の弱点を生かした新しい世界を動的に作り出す。
同時に、ディフェンダーチームはこれらの発生した脅威を克服するための協力戦略を学ぶ。
この共進化力学は、敵との相互作用から複雑さが有機的に生じる自己スケーリング環境を生成し、効果的に無限に新しい関連するトレーニングデータのストリームを提供する。
最小限の訓練で、攻撃者による側面攻撃や遮蔽などの複雑でインテリジェントな行動が出現し、防御者による集中射撃や拡散がもたらされることを実証する。
以上の結果から, 敵対的共進化は, 環境の複雑さを自動スケーリングし, エージェントをより頑健で戦略的深度に誘導する強力なメカニズムであることが示唆された。
関連論文リスト
- World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Understanding the World to Solve Social Dilemmas Using Multi-Agent
Reinforcement Learning [0.7161783472741748]
マルチエージェント強化学習環境で世界モデルを学ぶ自己関心有理エージェントの行動について検討する。
シミュレーションの結果,社会的ジレンマが生じるシナリオを扱う場合,世界モデルによって支えられたエージェントのグループは,他のテストされたエージェントよりも優れていた。
論文 参考訳(メタデータ) (2023-05-19T00:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。