論文の概要: Adaptive Procedural Task Generation for Hard-Exploration Problems
- arxiv url: http://arxiv.org/abs/2007.00350v3
- Date: Thu, 18 Mar 2021 08:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:34:41.296784
- Title: Adaptive Procedural Task Generation for Hard-Exploration Problems
- Title(参考訳): ハード探索問題に対する適応的手続き型タスク生成
- Authors: Kuan Fang, Yuke Zhu, Silvio Savarese, Li Fei-Fei
- Abstract要約: ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。
私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。
学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
- 参考スコア(独自算出の注目度): 78.20918366839399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Adaptive Procedural Task Generation (APT-Gen), an approach to
progressively generate a sequence of tasks as curricula to facilitate
reinforcement learning in hard-exploration problems. At the heart of our
approach, a task generator learns to create tasks from a parameterized task
space via a black-box procedural generation module. To enable curriculum
learning in the absence of a direct indicator of learning progress, we propose
to train the task generator by balancing the agent's performance in the
generated tasks and the similarity to the target tasks. Through adversarial
training, the task similarity is adaptively estimated by a task discriminator
defined on the agent's experiences, allowing the generated tasks to approximate
target tasks of unknown parameterization or outside of the predefined task
space. Our experiments on the grid world and robotic manipulation task domains
show that APT-Gen achieves substantially better performance than various
existing baselines by generating suitable tasks of rich variations.
- Abstract(参考訳): 難解展開問題における強化学習を容易にするために,逐次的タスク列をカリキュラムとして生成する手法であるadaptive procedural task generation (apt-gen)を提案する。
我々のアプローチの核心では、タスクジェネレータはブラックボックスの手続き生成モジュールを介してパラメータ化されたタスク空間からタスクを作成することを学びます。
学習進行の直接的な指標がない場合にカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと対象タスクとの類似性をバランスしてタスクジェネレータを訓練することを提案する。
逆行訓練により、タスク類似性はエージェントの経験に基づいて定義されたタスク判別器によって適応的に推定され、生成されたタスクは未知のパラメータ化のターゲットタスクや予め定義されたタスク空間の外部で近似することができる。
グリッド・ワールドとロボット操作タスク領域における実験により,apt-genは多様な既存ベースラインよりも優れた性能を実現していることが示された。
関連論文リスト
- Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Automaton-Guided Curriculum Generation for Reinforcement Learning Agents [14.20447398253189]
Automaton-Guided Curriculum Learning (AGCL) は、DAG(Directed Acyclic Graphs)の形式で、対象タスクのためのカリキュラムを自動生成する新しい方法である。
AGCL は決定論的有限オートマトン (DFA) の形式で仕様を符号化し、DFA とオブジェクト指向 MDP 表現を使ってカリキュラムを DAG として生成する。
グリッドワールドと物理に基づくシミュレーションロボティクス領域の実験では、AGCLが生み出すカリキュラムが時間と閾値のパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2023-04-11T15:14:31Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Active Task Randomization: Learning Robust Skills via Unsupervised
Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。
ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。
本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文 参考訳(メタデータ) (2022-11-11T11:24:55Z) - Transferring Knowledge for Reinforcement Learning in Contact-Rich
Manipulation [10.219833196479142]
複数のスキルの前提を活かして、類似したタスクのファミリー内で知識を伝達するという課題に対処する。
提案手法は, 先行タスク毎の実証軌道から, スキル埋め込みを表す潜在行動空間を学習する。
我々は,ペグ・イン・ホール・イン・イン・イン・イン・イン・イン・イン・イン・イン・インサート・タスクのセットを用いて本手法の評価を行い,トレーニング中に遭遇したことのない新しいタスクへのより良い一般化を実証した。
論文 参考訳(メタデータ) (2022-09-19T10:31:13Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。