論文の概要: Adaptive Procedural Task Generation for Hard-Exploration Problems
- arxiv url: http://arxiv.org/abs/2007.00350v3
- Date: Thu, 18 Mar 2021 08:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:34:41.296784
- Title: Adaptive Procedural Task Generation for Hard-Exploration Problems
- Title(参考訳): ハード探索問題に対する適応的手続き型タスク生成
- Authors: Kuan Fang, Yuke Zhu, Silvio Savarese, Li Fei-Fei
- Abstract要約: ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。
私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。
学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
- 参考スコア(独自算出の注目度): 78.20918366839399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Adaptive Procedural Task Generation (APT-Gen), an approach to
progressively generate a sequence of tasks as curricula to facilitate
reinforcement learning in hard-exploration problems. At the heart of our
approach, a task generator learns to create tasks from a parameterized task
space via a black-box procedural generation module. To enable curriculum
learning in the absence of a direct indicator of learning progress, we propose
to train the task generator by balancing the agent's performance in the
generated tasks and the similarity to the target tasks. Through adversarial
training, the task similarity is adaptively estimated by a task discriminator
defined on the agent's experiences, allowing the generated tasks to approximate
target tasks of unknown parameterization or outside of the predefined task
space. Our experiments on the grid world and robotic manipulation task domains
show that APT-Gen achieves substantially better performance than various
existing baselines by generating suitable tasks of rich variations.
- Abstract(参考訳): 難解展開問題における強化学習を容易にするために,逐次的タスク列をカリキュラムとして生成する手法であるadaptive procedural task generation (apt-gen)を提案する。
我々のアプローチの核心では、タスクジェネレータはブラックボックスの手続き生成モジュールを介してパラメータ化されたタスク空間からタスクを作成することを学びます。
学習進行の直接的な指標がない場合にカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと対象タスクとの類似性をバランスしてタスクジェネレータを訓練することを提案する。
逆行訓練により、タスク類似性はエージェントの経験に基づいて定義されたタスク判別器によって適応的に推定され、生成されたタスクは未知のパラメータ化のターゲットタスクや予め定義されたタスク空間の外部で近似することができる。
グリッド・ワールドとロボット操作タスク領域における実験により,apt-genは多様な既存ベースラインよりも優れた性能を実現していることが示された。
関連論文リスト
- Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - Instruction Matters: A Simple yet Effective Task Selection for Optimized Instruction Tuning of Specific Tasks [51.15473776489712]
本稿では,命令情報のみを利用してタスクを識別する,シンプルで効果的なタスク選択手法を提案する。
提案手法は,タスク間のペア転送可能性の複雑な測定や,対象タスクのためのデータサンプルの作成を必要とする従来の手法に比べて,はるかに効率的である。
実験の結果、命令のみに選択されたタスクセットのトレーニングにより、P3、Big-Bench、NIV2、Big-Bench Hardといったベンチマークのパフォーマンスが大幅に改善された。
論文 参考訳(メタデータ) (2024-04-25T08:49:47Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Automaton-Guided Curriculum Generation for Reinforcement Learning Agents [14.20447398253189]
Automaton-Guided Curriculum Learning (AGCL) は、DAG(Directed Acyclic Graphs)の形式で、対象タスクのためのカリキュラムを自動生成する新しい方法である。
AGCL は決定論的有限オートマトン (DFA) の形式で仕様を符号化し、DFA とオブジェクト指向 MDP 表現を使ってカリキュラムを DAG として生成する。
グリッドワールドと物理に基づくシミュレーションロボティクス領域の実験では、AGCLが生み出すカリキュラムが時間と閾値のパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2023-04-11T15:14:31Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Active Task Randomization: Learning Robust Skills via Unsupervised
Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。
ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。
本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文 参考訳(メタデータ) (2022-11-11T11:24:55Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。