論文の概要: Efficient Unsupervised Environment Design through Hierarchical Policy Representation Learning
- arxiv url: http://arxiv.org/abs/2602.09813v1
- Date: Tue, 10 Feb 2026 14:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.57483
- Title: Efficient Unsupervised Environment Design through Hierarchical Policy Representation Learning
- Title(参考訳): 階層型ポリシー表現学習による効率的な教師なし環境設計
- Authors: Dexun Li, Sidney Tio, Pradeep Varakantham,
- Abstract要約: 非教師なし環境設計(UED)は、自動化カリキュラムを通じて汎用エージェントを開発するための有望なアプローチとして登場した。
環境設計のための階層型マルコフ決定プロセス(MDP)フレームワークを提案する。
本手法は,教師と教師の交流を1エピソードで減らしながら,ベースラインのアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 28.99712640511788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Environment Design (UED) has emerged as a promising approach to developing general-purpose agents through automated curriculum generation. Popular UED methods focus on Open-Endedness, where teacher algorithms rely on stochastic processes for infinite generation of useful environments. This assumption becomes impractical in resource-constrained scenarios where teacher-student interaction opportunities are limited. To address this challenge, we introduce a hierarchical Markov Decision Process (MDP) framework for environment design. Our framework features a teacher agent that leverages student policy representations derived from discovered evaluation environments, enabling it to generate training environments based on the student's capabilities. To improve efficiency, we incorporate a generative model that augments the teacher's training dataset with synthetic data, reducing the need for teacher-student interactions. In experiments across several domains, we show that our method outperforms baseline approaches while requiring fewer teacher-student interactions in a single episode. The results suggest the applicability of our approach in settings where training opportunities are limited.
- Abstract(参考訳): 無監督環境設計 (UED) は, 自動カリキュラム生成による汎用エージェント開発において, 有望なアプローチとして登場した。
一般的なUED手法はオープンエンドレスネスに重点を置いており、教師アルゴリズムは有用な環境を無限に生成するために確率的プロセスに依存している。
この仮定は、教師と学生の交流機会が限られているリソース制約のあるシナリオでは現実的ではない。
この課題に対処するために,環境設計のための階層型マルコフ決定プロセス(MDP)フレームワークを導入する。
本フレームワークは,学習者評価環境から得られた学生政策表現を活用する教師エージェントを特徴とし,学生の能力に基づいて学習環境を生成する。
効率を向上させるために,教師の学習データセットを合成データで強化する生成モデルを導入し,教師と学生の交流の必要性を低減した。
複数の領域にわたる実験において,本手法は,教師と教師の交流を1エピソードで減らしながら,ベースラインのアプローチよりも優れていることを示す。
その結果,トレーニングの機会が限られている環境でのアプローチの適用性が示唆された。
関連論文リスト
- Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。
提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文 参考訳(メタデータ) (2026-02-09T06:29:54Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Improving Environment Novelty Quantification for Effective Unsupervised Environment Design [7.973747521623636]
無監督環境設計(UED)は,教師エージェントと学生エージェントの対話的学習を通じて,自己カリキュラムの問題を定式化する。
既存のUEDメソッドは主に後悔に依存しており、エージェントの最適なパフォーマンスと実際のパフォーマンスの違いを測定する指標である。
本稿では,CENIE(Coverage-based Evaluation of Novelty In Environment)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-02-08T23:59:41Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Diversity Induced Environment Design via Self-Play [9.172096093540357]
本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
論文 参考訳(メタデータ) (2023-02-04T07:31:36Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。