論文の概要: Improving Regret Approximation for Unsupervised Dynamic Environment Generation
- arxiv url: http://arxiv.org/abs/2601.14957v1
- Date: Wed, 21 Jan 2026 12:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.366071
- Title: Improving Regret Approximation for Unsupervised Dynamic Environment Generation
- Title(参考訳): 教師なし動的環境生成のためのレギュレット近似の改善
- Authors: Harry Mead, Bruno Lacerda, Jakob Foerster, Nick Hawes,
- Abstract要約: 無監督環境設計(UED)は、強化学習(RL)エージェントのための訓練カリキュラムを自動生成することを目指している。
現在の手法は、困難な信用割当問題に悩まされており、難易度を特定できない後悔の近似に依存している。
より高密度なジェネレータ報酬信号を実現するために,UEDのための動的環境生成を提案する。
- 参考スコア(独自算出の注目度): 19.50608711043436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised Environment Design (UED) seeks to automatically generate training curricula for reinforcement learning (RL) agents, with the goal of improving generalisation and zero-shot performance. However, designing effective curricula remains a difficult problem, particularly in settings where small subsets of environment parameterisations result in significant increases in the complexity of the required policy. Current methods struggle with a difficult credit assignment problem and rely on regret approximations that fail to identify challenging levels, both of which are compounded as the size of the environment grows. We propose Dynamic Environment Generation for UED (DEGen) to enable a denser level generator reward signal, reducing the difficulty of credit assignment and allowing for UED to scale to larger environment sizes. We also introduce a new regret approximation, Maximised Negative Advantage (MNA), as a significantly improved metric to optimise for, that better identifies more challenging levels. We show empirically that MNA outperforms current regret approximations and when combined with DEGen, consistently outperforms existing methods, especially as the size of the environment grows. We have made all our code available here: https://github.com/HarryMJMead/Dynamic-Environment-Generation-for-UED.
- Abstract(参考訳): 非教師なし環境設計(UED)は、一般化とゼロショット性能を改善することを目的として、強化学習(RL)エージェントのためのトレーニングカリキュラムを自動生成することを目指している。
しかし、特に環境パラメータ化の小さなサブセットが要求されるポリシーの複雑さを著しく増大させるような環境では、効果的なカリキュラムを設計することは難しい問題である。
現在の手法は、困難な信用割当問題に悩まされており、難易度を特定できない後悔の近似に依存しており、どちらも環境の規模が大きくなるにつれて複雑になる。
UED(DEGen)のための動的環境生成法を提案し、より高密度な生成器報酬信号を実現し、クレジット割り当ての難易度を低減し、UDEがより大きな環境規模にスケールできるようにする。
また、より困難なレベルを特定するために、新たな後悔の近似であるMaximised Negative Advantage (MNA)を導入しました。
我々は、MNAが現在の後悔の近似より優れており、DEGenと組み合わせると、特に環境が大きくなるにつれて、既存の手法よりも一貫して優れていることを実証的に示す。
私たちは、すべてのコードをここで利用可能にしました。
関連論文リスト
- AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning [71.4322853508083]
シミュレーション環境における強化学習の実施は、言語ベースのエージェントを強化するためのコスト効率が高く、スケーラブルな方法を提供する。
これまでの作業は、半自動化された環境合成や、十分な困難を欠いたタスクに限られており、幅や深さがほとんどない。
本稿では,高難易度かつ容易に検証可能なタスクに関連付けられたシミュレーション環境の,自動化されたスケーラブルな合成のための統一パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-28T09:43:11Z) - Improving Environment Novelty Quantification for Effective Unsupervised Environment Design [7.973747521623636]
無監督環境設計(UED)は,教師エージェントと学生エージェントの対話的学習を通じて,自己カリキュラムの問題を定式化する。
既存のUEDメソッドは主に後悔に依存しており、エージェントの最適なパフォーマンスと実際のパフォーマンスの違いを測定する指標である。
本稿では,CENIE(Coverage-based Evaluation of Novelty In Environment)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-02-08T23:59:41Z) - Adversarial Environment Design via Regret-Guided Diffusion Models [13.651184780336623]
環境変化に対して堅牢な訓練エージェントは、深い強化学習において重要な課題である。
非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。
後悔誘導拡散モデル(ADD)を用いた新しいUEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:35:03Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Reward-Free Curricula for Training Robust World Models [37.13175950264479]
報酬のない探索から世界モデルを学ぶことは有望なアプローチであり、新しいタスクのために想像された経験を使ってポリシーをトレーニングすることができる。
我々は、ロバストな世界モデルをトレーニングするための報酬のない設定でカリキュラムを生成するという新しい問題に対処する。
環境インスタンス全体にわたる世界モデルにおける最大誤差を最小限に抑えるために,ミニマックス後悔が結びつくことを示す。
この結果は,ロバストネスのための環境横断的な知識の重み付け獲得というアルゴリズム,WAKER: Weighted Acquisition of Knowledges for Environmentsに伝達される。
論文 参考訳(メタデータ) (2023-06-15T15:40:04Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。