論文の概要: Beyond Fixed Tasks: Unsupervised Environment Design for Task-Level Pairs
- arxiv url: http://arxiv.org/abs/2511.12706v1
- Date: Sun, 16 Nov 2025 17:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.49211
- Title: Beyond Fixed Tasks: Unsupervised Environment Design for Task-Level Pairs
- Title(参考訳): 修正タスクを超えて:タスクレベルペアの教師なし環境設計
- Authors: Daniel Furelos-Blanco, Charles Pert, Frederik Kelbel, Alex F. Spies, Alessandra Russo, Michael Dennis,
- Abstract要約: ATLAS (Aligning Tasks and Levels for Autocurricula of Specifications) はタスクやレベルに対して共同でオートキュリキュラを生成する新しい手法である。
当社のアプローチは、ポリシトレーニングのための解決可能で困難なタスクレベルのペアを自動生成するUEDに基づいています。
- 参考スコア(独自算出の注目度): 40.020192680979854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training general agents to follow complex instructions (tasks) in intricate environments (levels) remains a core challenge in reinforcement learning. Random sampling of task-level pairs often produces unsolvable combinations, highlighting the need to co-design tasks and levels. While unsupervised environment design (UED) has proven effective at automatically designing level curricula, prior work has only considered a fixed task. We present ATLAS (Aligning Tasks and Levels for Autocurricula of Specifications), a novel method that generates joint autocurricula over tasks and levels. Our approach builds upon UED to automatically produce solvable yet challenging task-level pairs for policy training. To evaluate ATLAS and drive progress in the field, we introduce an evaluation suite that models tasks as reward machines in Minigrid levels. Experiments demonstrate that ATLAS vastly outperforms random sampling approaches, particularly when sampling solvable pairs is unlikely. We further show that mutations leveraging the structure of both tasks and levels accelerate convergence to performant policies.
- Abstract(参考訳): 複雑な環境(レベル)における複雑な指示(タスク)に従うための一般エージェントの訓練は、強化学習における中核的な課題である。
タスクレベルのペアのランダムサンプリングは、しばしば解決不可能な組み合わせを生成し、タスクとレベルを共同設計する必要性を強調します。
教師なし環境設計(UED)は、レベルキュリキュラを自動設計する上で有効であることが証明されているが、以前の作業は固定されたタスクしか考慮されていない。
本稿では,タスクやレベルに対して共同でオートキュリキュラを生成する新しい手法であるATLAS(Asigning Tasks and Levels for Autocurricula of Specifications)を提案する。
当社のアプローチは、ポリシトレーニングのための解決可能で困難なタスクレベルのペアを自動的に生成するUEDに基づいています。
そこで本研究では,ATLASの評価とフィールドの進展を推し進めるために,タスクをミニグリッドレベルの報酬機としてモデル化する評価スイートを提案する。
実験により、ATLASは、特に可溶性ペアのサンプリングが不可能な場合に、ランダムサンプリングアプローチを大幅に上回っていることが示された。
さらに、タスクとレベルの両方の構造を利用した突然変異が、パフォーマンスポリシーへの収束を促進することを示す。
関連論文リスト
- CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios [18.95579655633218]
CoordFieldは、複雑な都市シナリオにおける異種ドローン群をコーディネートするための調整フィールドエージェントシステムである。
LLMは、高レベルの人間の命令を解釈し、それをUAVスワムの実行可能なコマンドに変換する役割を担っている。
UAV動作とタスク選択を誘導するコーディネーションフィールド機構を提案し,創発的タスクの分散および適応的アロケーションを可能にする。
論文 参考訳(メタデータ) (2025-04-30T18:02:45Z) - Automaton-Guided Curriculum Generation for Reinforcement Learning Agents [14.20447398253189]
Automaton-Guided Curriculum Learning (AGCL) は、DAG(Directed Acyclic Graphs)の形式で、対象タスクのためのカリキュラムを自動生成する新しい方法である。
AGCL は決定論的有限オートマトン (DFA) の形式で仕様を符号化し、DFA とオブジェクト指向 MDP 表現を使ってカリキュラムを DAG として生成する。
グリッドワールドと物理に基づくシミュレーションロボティクス領域の実験では、AGCLが生み出すカリキュラムが時間と閾値のパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2023-04-11T15:14:31Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Adaptive Procedural Task Generation for Hard-Exploration Problems [78.20918366839399]
ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。
私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。
学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
論文 参考訳(メタデータ) (2020-07-01T09:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。