論文の概要: An Optimisation Framework for Unsupervised Environment Design
- arxiv url: http://arxiv.org/abs/2505.20659v1
- Date: Tue, 27 May 2025 03:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.373722
- Title: An Optimisation Framework for Unsupervised Environment Design
- Title(参考訳): 教師なし環境設計のための最適化フレームワーク
- Authors: Nathan Monette, Alistair Letcher, Michael Beukman, Matthew T. Jackson, Alexander Rutherford, Alexander D. Goldie, Jakob N. Foerster,
- Abstract要約: 非教師なし環境設計(UED)は、エージェントの全般的な堅牢性を最大化することを目的としている。
ゼロサム設定において、証明可能な収束アルゴリズムを提供する。
提案手法の有効性を実証的に検証する。
- 参考スコア(独自算出の注目度): 88.29733214939544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For reinforcement learning agents to be deployed in high-risk settings, they must achieve a high level of robustness to unfamiliar scenarios. One method for improving robustness is unsupervised environment design (UED), a suite of methods aiming to maximise an agent's generalisability across configurations of an environment. In this work, we study UED from an optimisation perspective, providing stronger theoretical guarantees for practical settings than prior work. Whereas previous methods relied on guarantees if they reach convergence, our framework employs a nonconvex-strongly-concave objective for which we provide a provably convergent algorithm in the zero-sum setting. We empirically verify the efficacy of our method, outperforming prior methods in a number of environments with varying difficulties.
- Abstract(参考訳): 強化学習エージェントを高リスク環境で展開するには、なじみの無いシナリオに対して高い堅牢性を達成する必要がある。
堅牢性を改善する方法の1つは、環境の構成におけるエージェントの一般化性を最大化することを目的とした、教師なし環境設計(UED)である。
本研究は,UEDを最適化の観点から研究し,従来の作業よりも実践的な設定に対する理論的保証を強く提供する。
従来の手法では収束に到達した場合の保証に頼っていたが,本フレームワークでは,ゼロサム設定における既約収束アルゴリズムを提供するために,非凸強対流の目的を用いている。
提案手法の有効性を実証的に検証し,様々な難易度のある環境において先行手法より優れていることを示す。
関連論文リスト
- Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Data-Driven Goal Recognition Design for General Behavioral Agents [14.750023724230774]
汎用行動モデルを持つエージェントを考慮に入れた,目標認識設計のためのデータ駆動型アプローチを提案する。
本稿では,様々な制約を満たす勾配に基づく最適化フレームワークを提案し,意思決定環境を最適化する。
論文 参考訳(メタデータ) (2024-04-03T20:38:22Z) - End-to-end Conditional Robust Optimization [6.363653898208231]
条件付きロバスト最適化(CRO)は、不確実な定量化と堅牢な最適化を組み合わせることで、高利得アプリケーションの安全性と信頼性を促進する。
本稿では,CROモデルの学習方法として,所定の決定の実証的リスクと,それをサポートする文脈不確実性セットの条件付きカバレッジの質の両方を考慮に入れた,新しいエンドツーエンドアプローチを提案する。
提案したトレーニングアルゴリズムは,従来の推定値を上回って,アプローチを最適化する決定を生成する。
論文 参考訳(メタデータ) (2024-03-07T17:16:59Z) - Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。
違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。
安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-24T02:36:42Z) - Constrained Environment Optimization for Prioritized Multi-Agent
Navigation [11.473177123332281]
本稿では,システムレベルの最適化問題において,環境を決定変数として考えることを目的とする。
本稿では,非優先順位付け・優先度付けされた環境最適化の新たな問題を提案する。
完全性を確保しつつ環境が変化しうる条件を, 形式的証明を通じて示す。
論文 参考訳(メタデータ) (2023-05-18T18:55:06Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。