論文の概要: Learning an Adversarial World Model for Automated Curriculum Generation in MARL
- arxiv url: http://arxiv.org/abs/2509.03771v1
- Date: Wed, 03 Sep 2025 23:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.99617
- Title: Learning an Adversarial World Model for Automated Curriculum Generation in MARL
- Title(参考訳): MARLにおける自動カリキュラム生成のための逆世界モデル学習
- Authors: Brennen Hill,
- Abstract要約: 環境力学を推論し予測する世界モデルは、インテリジェンスを具現化する基礎となっている。
真に一般化可能で堅牢なエージェントを開発するためには、エージェントの内部で学習するエージェントと並行して、複雑さを拡大する環境が必要です。
本稿では、生成的**Attacker*エージェントが暗黙の世界モデルを学び、協調的**Defender*エージェントのチームにとってますます困難な課題を合成するシステムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models that infer and predict environmental dynamics are foundational to embodied intelligence. However, their potential is often limited by the finite complexity and implicit biases of hand-crafted training environments. To develop truly generalizable and robust agents, we need environments that scale in complexity alongside the agents learning within them. In this work, we reframe the challenge of environment generation as the problem of learning a goal-conditioned, generative world model. We propose a system where a generative **Attacker** agent learns an implicit world model to synthesize increasingly difficult challenges for a team of cooperative **Defender** agents. The Attacker's objective is not passive prediction, but active, goal-driven interaction: it models and generates world states (i.e., configurations of enemy units) specifically to exploit the Defenders' weaknesses. Concurrently, the embodied Defender team learns a cooperative policy to overcome these generated worlds. This co-evolutionary dynamic creates a self-scaling curriculum where the world model continuously adapts to challenge the decision-making policy of the agents, providing an effectively infinite stream of novel and relevant training scenarios. We demonstrate that this framework leads to the emergence of complex behaviors, such as the world model learning to generate flanking and shielding formations, and the defenders learning coordinated focus-fire and spreading tactics. Our findings position adversarial co-evolution as a powerful method for learning instrumental world models that drive agents toward greater strategic depth and robustness.
- Abstract(参考訳): 環境力学を推論し予測する世界モデルは、インテリジェンスを具現化する基礎となっている。
しかしながら、それらのポテンシャルは、手作りのトレーニング環境の有限の複雑さと暗黙のバイアスによって制限されることが多い。
真に一般化可能で堅牢なエージェントを開発するためには、エージェントの内部で学習するエージェントと並行して、複雑さを拡大する環境が必要です。
本研究では,目標条件付き生成的世界モデル学習の課題として,環境生成の課題を再考する。
本稿では、生成的**Attacker*エージェントが暗黙の世界モデルを学び、協調的**Defender*エージェントのチームにとってますます困難な課題を合成するシステムを提案する。
アタッカーの目的は受動的予測ではなく、アクティブな目標駆動の相互作用であり、特にディフェンダーの弱点を利用するために世界国家(すなわち、敵部隊の構成)をモデル化し、生成する。
同時に、具体化されたディフェンダーチームは、これらの生成された世界を克服するための協調政策を学ぶ。
この共進化的ダイナミクスは、世界モデルがエージェントの意思決定方針に挑戦するために継続的に適応する自己スケーリングカリキュラムを作成し、事実上無限の新規および関連するトレーニングシナリオを提供する。
我々は,この枠組みが,側面や遮蔽構造を生成する世界モデル学習や,集中砲火と拡散戦術の協調学習といった複雑な行動の出現につながることを実証した。
本研究は, エージェントをより戦略的深度と堅牢性に導くための, 機器世界モデル学習の強力な方法として, 敵対的共進化を位置づけたものである。
関連論文リスト
- Robust Agents in Open-Ended Worlds [4.199586801784625]
この論文では、オープンディペンデンスとマルチエージェント学習の方法論を用いて、堅牢なAIエージェントを訓練し、評価する。
まず、手続き的なコンテンツ生成を通じて多様な環境を作成するためのサンドボックスフレームワークであるMiniHackを紹介します。
次に, 2プレイヤーゼロサムゲームにおけるRLエージェントのロバスト性および一般化性を漸進的に向上させる, 対角曲線生成の新しい手法であるMaestroを提案する。
論文 参考訳(メタデータ) (2025-12-09T00:30:33Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence [87.08051686357206]
大きな言語モデル(LLM)は強力な能力を示しているが、基本的に静的である。
LLMはますますオープンでインタラクティブな環境にデプロイされているため、この静的な性質は重要なボトルネックとなっている。
この調査は、自己進化エージェントの体系的で包括的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2025-07-28T17:59:05Z) - GenAI-based Multi-Agent Reinforcement Learning towards Distributed Agent Intelligence: A Generative-RL Agent Perspective [35.589506360952925]
我々は、AIに基づく強化学習を通じて、リアクティブからプロアクティブなマルチエージェントインテリジェンスへの変革的パラダイムシフトを論じる。
生成的RLエージェントは、即時観測に反応するのではなく、環境の進化をモデル化し、他のエージェントの振る舞いを予測し、協調されたアクションシーケンスを生成し、長期的ダイナミクスの戦略的推論を行うことができる。
論文 参考訳(メタデータ) (2025-07-13T05:02:43Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [132.77459963706437]
この本は、モジュール化された脳に触発されたアーキテクチャの中で、インテリジェントなエージェントをフレーミングする、包括的な概要を提供する。
自己向上と適応的な進化のメカニズムを探求し、エージェントが自律的に能力を洗練する方法を探求する。
また、エージェントの相互作用、協力、社会構造から生じる集合的知性についても調べる。
論文 参考訳(メタデータ) (2025-03-31T18:00:29Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Understanding the World to Solve Social Dilemmas Using Multi-Agent
Reinforcement Learning [0.7161783472741748]
マルチエージェント強化学習環境で世界モデルを学ぶ自己関心有理エージェントの行動について検討する。
シミュレーションの結果,社会的ジレンマが生じるシナリオを扱う場合,世界モデルによって支えられたエージェントのグループは,他のテストされたエージェントよりも優れていた。
論文 参考訳(メタデータ) (2023-05-19T00:31:26Z) - Emergent collective intelligence from massive-agent cooperation and
competition [19.75488604218965]
大規模強化学習による人工知能の出現について検討する。
我々はLuxという大規模強化学習環境を提案する。この環境では、2つのチームの動的エージェントと大規模エージェントが限られたリソースを求めてスクランブルし、暗闇から戦う。
論文 参考訳(メタデータ) (2023-01-04T13:23:12Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Heterogeneous Multi-Agent Reinforcement Learning for Unknown Environment
Mapping [0.0]
異種エージェントのチームが未知の環境をカバーするための分散制御ポリシーを学習できるようにするアクター批判アルゴリズムを提案する。
このタスクは、無人航空機のチームを配置することで危険地域における状況認識を高めたい国家の安全と緊急対応組織に関心を寄せている。
論文 参考訳(メタデータ) (2020-10-06T12:23:05Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。