論文の概要: Outcome-directed Reinforcement Learning by Uncertainty & Temporal
Distance-Aware Curriculum Goal Generation
- arxiv url: http://arxiv.org/abs/2301.11741v1
- Date: Fri, 27 Jan 2023 14:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 15:17:09.192049
- Title: Outcome-directed Reinforcement Learning by Uncertainty & Temporal
Distance-Aware Curriculum Goal Generation
- Title(参考訳): 不確実性と時間的距離認識型カリキュラム目標生成による成果指向強化学習
- Authors: Daesol Cho, Seungjae Lee, H. Jin Kim
- Abstract要約: 現在の強化学習(RL)は、望まれる結果や高い報奨がほとんど得られない挑戦的な探索問題の解決に苦しむことが多い。
両部マッチング問題を解くことにより,結果指向のRLに対する不確実性と時間的距離対応の目標生成手法を提案する。
カリキュラムの正確な校正ガイダンスを望ましい結果状態に提供できただけでなく、以前のカリキュラムRL法と比較して、サンプル効率と幾何学に依存しないカリキュラム目標の提案能力も大幅に向上した。
- 参考スコア(独自算出の注目度): 29.155620517531656
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current reinforcement learning (RL) often suffers when solving a challenging
exploration problem where the desired outcomes or high rewards are rarely
observed. Even though curriculum RL, a framework that solves complex tasks by
proposing a sequence of surrogate tasks, shows reasonable results, most of the
previous works still have difficulty in proposing curriculum due to the absence
of a mechanism for obtaining calibrated guidance to the desired outcome state
without any prior domain knowledge. To alleviate it, we propose an uncertainty
& temporal distance-aware curriculum goal generation method for the
outcome-directed RL via solving a bipartite matching problem. It could not only
provide precisely calibrated guidance of the curriculum to the desired outcome
states but also bring much better sample efficiency and geometry-agnostic
curriculum goal proposal capability compared to previous curriculum RL methods.
We demonstrate that our algorithm significantly outperforms these prior methods
in a variety of challenging navigation tasks and robotic manipulation tasks in
a quantitative and qualitative way.
- Abstract(参考訳): 現在の強化学習(rl)は、望ましい結果や高い報酬がほとんど観測されない難解な探索問題を解決するときにしばしば発生する。
一連のサロゲートタスクを提案することで複雑なタスクを解くフレームワークであるカリキュラムRLは妥当な結果を示すが、以前の研究の多くは、事前のドメイン知識を使わずに、望ましい結果状態に調整されたガイダンスを得るメカニズムが存在しないため、カリキュラムを提案するのが困難である。
そこで本研究では,両部マッチング問題を解くことにより,結果指向のRLのための不確実性と時間的距離対応のカリキュラムゴール生成手法を提案する。
カリキュラムの正確な校正ガイダンスを望ましい結果状態に提供できただけでなく、以前のカリキュラムRL法と比較して、サンプル効率と幾何学に依存しないカリキュラム目標の提案能力も向上した。
提案アルゴリズムは,これらの手法を,定量的かつ定性的な方法で,様々な困難なナビゲーションタスクやロボット操作タスクで著しく上回っていることを示す。
関連論文リスト
- Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning [17.092640837991883]
強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学ぶための有望な枠組みである。
ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、多くの高品質なデモデータが必要になることが多い。
提案手法における逆カリキュラムと前方カリキュラムの組み合わせ(RFCL)は,実演とサンプル効率を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:33:12Z) - CQM: Curriculum Reinforcement Learning with a Quantized World Model [30.21954044028645]
本稿では,カリキュラムプロセスに不可欠な情報を含む意味目標空間を自動的に定義する新しいカリキュラム手法を提案する。
自動ゴール空間上の最終目標に収束する不確実性と時間的距離対応のカリキュラム目標を提案する。
また、エゴ中心の視覚入力においても、データ効率と性能に関する最先端のカリキュラムRL法よりも、様々な目標達成タスクにおいて優れています。
論文 参考訳(メタデータ) (2023-10-26T11:50:58Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - A Probabilistic Interpretation of Self-Paced Learning with Applications
to Reinforcement Learning [30.69129405392038]
強化学習における自動カリキュラム生成のアプローチを提案する。
我々は、よく知られた自己評価学習パラダイムを、トレーニングタスクよりも分布を誘導するものとして定式化する。
実験により、この誘導分布のトレーニングは、RLアルゴリズム間の局所最適性の低下を避けるのに役立つことが示された。
論文 参考訳(メタデータ) (2021-02-25T21:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。