論文の概要: Improving Environment Novelty Quantification for Effective Unsupervised Environment Design
- arxiv url: http://arxiv.org/abs/2502.05726v1
- Date: Sat, 08 Feb 2025 23:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:13.381800
- Title: Improving Environment Novelty Quantification for Effective Unsupervised Environment Design
- Title(参考訳): 効率的な教師なし環境設計のための環境ノベルティ定量化の改善
- Authors: Jayden Teoh, Wenjun Li, Pradeep Varakantham,
- Abstract要約: 無監督環境設計(UED)は,教師エージェントと学生エージェントの対話的学習を通じて,自己カリキュラムの問題を定式化する。
既存のUEDメソッドは主に後悔に依存しており、エージェントの最適なパフォーマンスと実際のパフォーマンスの違いを測定する指標である。
本稿では,CENIE(Coverage-based Evaluation of Novelty In Environment)フレームワークについて紹介する。
- 参考スコア(独自算出の注目度): 7.973747521623636
- License:
- Abstract: Unsupervised Environment Design (UED) formalizes the problem of autocurricula through interactive training between a teacher agent and a student agent. The teacher generates new training environments with high learning potential, curating an adaptive curriculum that strengthens the student's ability to handle unseen scenarios. Existing UED methods mainly rely on regret, a metric that measures the difference between the agent's optimal and actual performance, to guide curriculum design. Regret-driven methods generate curricula that progressively increase environment complexity for the student but overlook environment novelty -- a critical element for enhancing an agent's generalizability. Measuring environment novelty is especially challenging due to the underspecified nature of environment parameters in UED, and existing approaches face significant limitations. To address this, this paper introduces the Coverage-based Evaluation of Novelty In Environment (CENIE) framework. CENIE proposes a scalable, domain-agnostic, and curriculum-aware approach to quantifying environment novelty by leveraging the student's state-action space coverage from previous curriculum experiences. We then propose an implementation of CENIE that models this coverage and measures environment novelty using Gaussian Mixture Models. By integrating both regret and novelty as complementary objectives for curriculum design, CENIE facilitates effective exploration across the state-action space while progressively increasing curriculum complexity. Empirical evaluations demonstrate that augmenting existing regret-based UED algorithms with CENIE achieves state-of-the-art performance across multiple benchmarks, underscoring the effectiveness of novelty-driven autocurricula for robust generalization.
- Abstract(参考訳): 無監督環境設計(UED)は,教師エージェントと学生エージェントの対話的学習を通じて,自己カリキュラムの問題を定式化する。
教師は、学習可能性の高い新しいトレーニング環境を生成し、適応カリキュラムをカリキュラム化し、目に見えないシナリオを扱う能力を強化する。
既存のUEDメソッドは主に、カリキュラム設計を導くために、エージェントの最適なパフォーマンスと実際のパフォーマンスの違いを測定する指標である後悔に頼っている。
レグレト駆動の手法は、学生の環境複雑さを徐々に増大させるカリキュラムを生成するが、エージェントの一般化性を高める重要な要素である環境の新規性を見落としている。
UEDの環境パラメータが不明確であるため、環境のノベルティの測定は特に困難であり、既存のアプローチは重大な制約に直面している。
そこで本研究では,CENIE(Coverage-based Evaluation of Novelty In Environment)フレームワークについて紹介する。
CENIEは、拡張性があり、ドメインに依存しない、カリキュラムを意識した、環境のノベルティを定量化するアプローチを提案している。
次に、このカバレッジをモデル化し、ガウス混合モデルを用いて環境のノベルティを測定するCENIEの実装を提案する。
後悔と新規性の両方をカリキュラム設計の補完的な目的とすることで、CENIEは、カリキュラムの複雑さを徐々に増加させながら、州の行動空間を効果的に探索することを促進する。
経験的評価により、CENIEによる既存の後悔に基づくUEDアルゴリズムの強化は、複数のベンチマークで最先端のパフォーマンスを達成し、堅牢な一般化のためのノベルティ駆動オートキュリキュラの有効性を実証している。
関連論文リスト
- Adversarial Environment Design via Regret-Guided Diffusion Models [13.651184780336623]
環境変化に対して堅牢な訓練エージェントは、深い強化学習において重要な課題である。
非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。
後悔誘導拡散モデル(ADD)を用いた新しいUEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:35:03Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - Diversity Induced Environment Design via Self-Play [9.172096093540357]
本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
論文 参考訳(メタデータ) (2023-02-04T07:31:36Z) - Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文 参考訳(メタデータ) (2022-07-11T22:45:29Z) - Evolving Curricula with Regret-Based Environment Design [37.70275057075986]
我々は、原則化された後悔に基づくカリキュラムで進化の力を活用することを提案する。
我々の手法はエージェントの能力の最前線で常にレベルを発生させることを試みており、その結果、単純から始まるがますます複雑になるキュリキュラが生まれる。
論文 参考訳(メタデータ) (2022-03-02T18:40:00Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。