論文の概要: Scaling Multi-Agent Environment Co-Design with Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.03100v1
- Date: Wed, 05 Nov 2025 01:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.285227
- Title: Scaling Multi-Agent Environment Co-Design with Diffusion Models
- Title(参考訳): 拡散モデルによるマルチエージェント環境共設計のスケーリング
- Authors: Hao Xiang Li, Michael Amir, Amanda Prorok,
- Abstract要約: エージェント環境共同設計は, エージェントポリシーと環境設定を協調的に最適化し, システム性能の向上を図ることを目的としている。
現在の共同設計手法は, 高次元環境設計空間下でのスケール, 崩壊に苦慮し, サンプル不効率に悩まされている。
我々は,大規模でサンプル効率のよい共同設計フレームワークを開発し,共同設計を実用的に関係のある環境に向けて進める。
提案手法は, 常に最先端の手法を超え, 66%のシミュレーションサンプルで, 倉庫環境において39%の報奨を達成している。
- 参考スコア(独自算出の注目度): 15.05916455401006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The agent-environment co-design paradigm jointly optimises agent policies and environment configurations in search of improved system performance. With application domains ranging from warehouse logistics to windfarm management, co-design promises to fundamentally change how we deploy multi-agent systems. However, current co-design methods struggle to scale. They collapse under high-dimensional environment design spaces and suffer from sample inefficiency when addressing moving targets inherent to joint optimisation. We address these challenges by developing Diffusion Co-Design (DiCoDe), a scalable and sample-efficient co-design framework pushing co-design towards practically relevant settings. DiCoDe incorporates two core innovations. First, we introduce Projected Universal Guidance (PUG), a sampling technique that enables DiCoDe to explore a distribution of reward-maximising environments while satisfying hard constraints such as spatial separation between obstacles. Second, we devise a critic distillation mechanism to share knowledge from the reinforcement learning critic, ensuring that the guided diffusion model adapts to evolving agent policies using a dense and up-to-date learning signal. Together, these improvements lead to superior environment-policy pairs when validated on challenging multi-agent environment co-design benchmarks including warehouse automation, multi-agent pathfinding and wind farm optimisation. Our method consistently exceeds the state-of-the-art, achieving, for example, 39% higher rewards in the warehouse setting with 66% fewer simulation samples. This sets a new standard in agent-environment co-design, and is a stepping stone towards reaping the rewards of co-design in real world domains.
- Abstract(参考訳): エージェント環境共設計パラダイムは、エージェントポリシーと環境構成を協調的に最適化し、システム性能の改善を探索する。
倉庫のロジスティクスからウィンドファーム管理まで、アプリケーションドメインによって、共同設計は、マルチエージェントシステムのデプロイ方法を根本的に変えることを約束します。
しかし、現在の共同設計手法はスケールに苦慮している。
高次元環境設計空間の下で崩壊し、共同最適化に固有の移動目標に対処する際にサンプル不効率に悩まされる。
このような課題に対処するために、拡張設計(Diffusion Co-Design, DiCoDe)を開発した。
DiCoDeは2つのコアイノベーションを取り入れている。
まず,DiCoDeが障害物間の空間的分離などの厳しい制約を満たしつつ,報酬を最大化する環境の分布を探索することのできるサンプリング手法であるProjected Universal Guidance(PUG)を紹介する。
第2に、強化学習評論家から知識を共有するための批判蒸留機構を考案し、ガイド付き拡散モデルが高密度かつ最新な学習信号を用いて進化するエージェントポリシーに適応するようにした。
これらの改善は、倉庫の自動化、マルチエージェントのパスフィニング、風力発電の最適化を含む、挑戦的なマルチエージェント環境の共同設計ベンチマークで検証された場合、環境と政治のペアに優れた結果をもたらす。
例えば,倉庫における報酬の39%は,シミュレーションサンプルを66%減らした。
これはエージェント環境の共同設計における新しい標準を定め、現実世界のドメインにおける共同設計の報酬を享受するための一歩となる。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Co-Optimizing Reconfigurable Environments and Policies for Decentralized Multi-Agent Navigation [14.533605727697775]
本研究は,マルチエージェントシステムとその周辺環境を,一方の行動が他方に影響を与える共進化システムとみなす。
マルチエージェントナビゲーションと環境最適化という2つのサブオブジェクトを導入することで,エージェントの協調最適化問題を提案する。
論文 参考訳(メタデータ) (2024-03-21T17:37:43Z) - Diffusion Model for Data-Driven Black-Box Optimization [54.25693582870226]
我々は、強力な生成AI技術である拡散モデルに注目し、ブラックボックス最適化の可能性について検討する。
本研究では,1)実数値報酬関数のノイズ測定と,2)対比較に基づく人間の嗜好の2種類のラベルについて検討する。
提案手法は,設計最適化問題を条件付きサンプリング問題に再構成し,拡散モデルのパワーを有効活用する。
論文 参考訳(メタデータ) (2024-03-20T00:41:12Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Diversity Induced Environment Design via Self-Play [9.172096093540357]
本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
論文 参考訳(メタデータ) (2023-02-04T07:31:36Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Stateful active facilitator: Coordination and Environmental
Heterogeneity in Cooperative Multi-Agent Reinforcement Learning [71.53769213321202]
環境の調整レベルと不均一度の概念を定式化する。
異なるMARLアプローチの実証評価を容易にするマルチエージェント環境のスイートであるHECOGridを提案する。
本研究では,エージェントが高配向環境と高配向環境において効率的に作業することを可能にする訓練分散実行学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T18:17:01Z) - Environment Optimization for Multi-Agent Navigation [11.473177123332281]
本研究の目的は,システムレベルの最適化問題において,環境を決定変数として考えることである。
完全性を確保しつつ環境が変化しうる条件を, 形式的証明を通じて示す。
幅広い実装シナリオに対応するため、オンラインとオフラインの両方の最適化と、離散環境と連続環境の両方の表現を含む。
論文 参考訳(メタデータ) (2022-09-22T19:22:16Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。