論文の概要: PACE: Parameter Change for Unsupervised Environment Design
- arxiv url: http://arxiv.org/abs/2605.01358v1
- Date: Sat, 02 May 2026 10:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.725937
- Title: PACE: Parameter Change for Unsupervised Environment Design
- Title(参考訳): PACE:教師なし環境設計のためのパラメータ変更
- Authors: Fang Yuan, Quanjun Yin, Siqi Shen, Yuxiang Xie, Junqiang Yang, Long Qin, Junjie Zeng, Qinglun Li,
- Abstract要約: 教師なし環境設計は、適応的な学習環境を形成することで強化学習の一般化を改善するための有望なパラダイムを提供する。
既存のUED手法では、後悔や値ベースのエラー、あるいはモンテカルロなど、バイアス、高い分散、あるいはかなりの計算オーバーヘッドに悩まされている間接的なプロキシ信号を用いて環境を評価する。
本研究では,その環境に対するトレーニングによって引き起こされる政策変化を通じて環境評価を行い,実際の学習過程において環境選択を直接基礎とする変化環境設計(PACE)を提案する。
- 参考スコア(独自算出の注目度): 22.066871262223312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Environment Design (UED) offers a promising paradigm for improving reinforcement learning generalization by adaptively shaping training environments, but it requires reliable environment evaluation to remain effective. However, existing UED methods evaluate environments using indirect proxy signals such as regret, value-based errors, or Monte Carlo, which suffer from bias, high variance, or substantial computational overhead and fail to reflect agent realized learning progress. To address these limitations, we propose Parameter Change Environment Design (PACE), which evaluates an environment through the policy parameter change induced by training on that environment, directly grounding environment selection in realized learning progress. Specifically, PACE assigns environment value using a first-order approximation of the policy optimization objective, where the improvement induced by an environment is proportional to the squared L2 norm of the corresponding parameter update, enabling low-variance and computation-efficient evaluation without additional rollouts. Experiments on MiniGrid and Craftax show that PACE consistently outperforms established UED baselines, achieving higher IQM and smaller Optimality Gap on OOD evaluations, including an IQM of 96.4% and an Optimality Gap of 17.2% on MiniGrid.
- Abstract(参考訳): 教師なし環境設計(UED)は、学習環境を適応的に形成することで強化学習の一般化を改善するための有望なパラダイムを提供するが、有効性を維持するためには信頼性の高い環境評価が必要である。
しかし,既存のUED手法では,学習の進展を反映できない,バイアスや高い分散性,あるいは計算オーバーヘッドに悩まされるモンテカルロなどの間接的プロキシ信号を用いて,環境評価を行っている。
これらの制約に対処するため,パラメータ変化環境設計(PACE)を提案し,その環境上でのトレーニングによって引き起こされるポリシーパラメータ変化を通じて環境を評価する。
具体的には、PACEは、環境による改善が対応するパラメータ更新の2乗L2ノルムに比例する政策最適化目標の1次近似を用いて環境値を割り当て、追加のロールアウトなしで低分散及び計算効率の評価を可能にする。
MiniGrid と Craftax の実験では、PACE は UED ベースラインを一貫して上回り、OOD 評価では IQM の 96.4% と Optimality Gap の 17.2% を達成している。
関連論文リスト
- ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - Improving Regret Approximation for Unsupervised Dynamic Environment Generation [19.50608711043436]
無監督環境設計(UED)は、強化学習(RL)エージェントのための訓練カリキュラムを自動生成することを目指している。
現在の手法は、困難な信用割当問題に悩まされており、難易度を特定できない後悔の近似に依存している。
より高密度なジェネレータ報酬信号を実現するために,UEDのための動的環境生成を提案する。
論文 参考訳(メタデータ) (2026-01-21T12:58:40Z) - Improving Environment Novelty Quantification for Effective Unsupervised Environment Design [7.973747521623636]
無監督環境設計(UED)は,教師エージェントと学生エージェントの対話的学習を通じて,自己カリキュラムの問題を定式化する。
既存のUEDメソッドは主に後悔に依存しており、エージェントの最適なパフォーマンスと実際のパフォーマンスの違いを測定する指標である。
本稿では,CENIE(Coverage-based Evaluation of Novelty In Environment)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-02-08T23:59:41Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Max-Min Off-Policy Actor-Critic Method Focusing on Worst-Case Robustness
to Model Misspecification [22.241676350331968]
本研究は,不確実性パラメータを含むシミュレーション環境とその可能な値の集合を含むシナリオに焦点を当てる。
本研究の目的は,不確実性パラメータセット上での最悪の性能を最適化し,対応する実環境における性能を保証することである。
マルチジョイント・ダイナミックスと接触(MuJoCo)環境の実験により,提案手法は複数のベースライン・アプローチに比較して最悪の性能を示した。
論文 参考訳(メタデータ) (2022-11-07T10:18:31Z) - Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文 参考訳(メタデータ) (2022-07-11T22:45:29Z) - Lifelong Incremental Reinforcement Learning with Online Bayesian
Inference [11.076005074172516]
長期にわたる強化学習エージェントは、環境の変化に応じて、その振る舞いを漸進的に適応させることである。
動的環境への効率的な生涯適応のための新しいインクリメンタルアルゴリズムであるLifeLong Reinforcement Learning (LLIRL)を提案する。
論文 参考訳(メタデータ) (2020-07-28T13:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。