論文の概要: Adversarial Environment Design via Regret-Guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.19715v1
- Date: Fri, 25 Oct 2024 17:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:32.599033
- Title: Adversarial Environment Design via Regret-Guided Diffusion Models
- Title(参考訳): レグレト誘導拡散モデルによる逆環境設計
- Authors: Hojun Chung, Junseo Lee, Minsoo Kim, Dohyeong Kim, Songhwai Oh,
- Abstract要約: 環境変化に頑健な訓練エージェントは、深層強化学習(RL)において重要な課題である。
非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。
後悔誘導拡散モデル(ADD)を用いた新しいUEDアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 13.651184780336623
- License:
- Abstract: Training agents that are robust to environmental changes remains a significant challenge in deep reinforcement learning (RL). Unsupervised environment design (UED) has recently emerged to address this issue by generating a set of training environments tailored to the agent's capabilities. While prior works demonstrate that UED has the potential to learn a robust policy, their performance is constrained by the capabilities of the environment generation. To this end, we propose a novel UED algorithm, adversarial environment design via regret-guided diffusion models (ADD). The proposed method guides the diffusion-based environment generator with the regret of the agent to produce environments that the agent finds challenging but conducive to further improvement. By exploiting the representation power of diffusion models, ADD can directly generate adversarial environments while maintaining the diversity of training environments, enabling the agent to effectively learn a robust policy. Our experimental results demonstrate that the proposed method successfully generates an instructive curriculum of environments, outperforming UED baselines in zero-shot generalization across novel, out-of-distribution environments. Project page: https://github.com/rllab-snu.github.io/projects/ADD
- Abstract(参考訳): 環境変化に頑健な訓練エージェントは、深層強化学習(RL)において重要な課題である。
非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。
以前の研究は、UDEが堅牢なポリシーを学ぶ可能性を示しているが、その性能は環境生成の能力に制約されている。
この目的のために, 後悔誘導拡散モデル (ADD) を用いた新しいUEDアルゴリズムを提案する。
提案手法は, 拡散型環境発生装置をエージェントの後悔を伴って誘導し, エージェントがさらなる改善を図りつつも, 環境を創出する。
拡散モデルの表現力を利用することで、ADDはトレーニング環境の多様性を維持しながら直接敵環境を生成でき、エージェントは堅牢なポリシーを効果的に学習することができる。
実験の結果,提案手法は,新規なアウト・オブ・ディストリビューション環境にまたがるゼロショット一般化において,UEDベースラインを上回り,環境のインストラクティブなカリキュラムを生成することに成功した。
プロジェクトページ:https://github.com/rllab-snu.github.io/projects/ADD
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - Stabilizing Unsupervised Environment Design with a Learned Adversary [28.426666219969555]
汎用エージェントの訓練における主な課題は、環境変動に対する広範な一般化と堅牢性を促進する訓練タスクの設計である。
教師なし環境設計(UED)の先駆的なアプローチは、強化学習を使用して教師の政策を訓練し、ゼロからタスクを設計するPAIREDである。
PAIREDは理論上の強い支持にもかかわらず、実用性能を阻害する様々な課題に悩まされている。
我々は、PAIREDが最先端の手法に適合または超えることを可能にし、いくつかの確立された手続き的環境において堅牢なエージェントを生産する。
論文 参考訳(メタデータ) (2023-08-21T15:42:56Z) - Free Lunch for Domain Adversarial Training: Environment Label Smoothing [82.85757548355566]
環境ラベル平滑化 (ELS) により, 騒音環境ラベルに対するトレーニング安定性, 局所収束性, 堅牢性を向上する。
特に環境ラベルが騒がしい場合, 領域の一般化・適応タスクについて, 最先端の成果が得られる。
論文 参考訳(メタデータ) (2023-02-01T02:55:26Z) - Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文 参考訳(メタデータ) (2022-07-11T22:45:29Z) - Deep Surrogate Assisted Generation of Environments [7.217405582720078]
品質多様性(QD)最適化は環境生成アルゴリズムの有効成分であることが証明されている。
本稿では,サンプル効率のよいQD環境生成アルゴリズムであるDeep Surrogate Assisted Generation of Environments (DSAGE)を提案する。
2つのベンチマークドメインの結果、DSAGEは既存のQD環境生成アルゴリズムを大幅に上回っている。
論文 参考訳(メタデータ) (2022-06-09T00:14:03Z) - EnvEdit: Environment Editing for Vision-and-Language Navigation [98.30038910061894]
Vision-and-Language Navigation (VLN)では、エージェントは自然言語命令に基づいて環境をナビゲートする必要がある。
本研究では,既存の環境を編集して新しい環境を作成するデータ拡張手法であるEnvEditを提案する。
提案手法は,事前学習および未学習のVLNエージェントにおいて,すべての指標において有意な改善が得られたことを示す。
論文 参考訳(メタデータ) (2022-03-29T15:44:32Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。