論文の概要: MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.07184v2
- Date: Sun, 18 Jul 2021 22:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 10:46:34.293554
- Title: MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning
- Title(参考訳): 壁画: 結果駆動強化学習のためのメタラーニング不確実性認識報酬
- Authors: Kevin Li, Abhishek Gupta, Ashwin Reddy, Vitchyr Pong, Aurick Zhou,
Justin Yu, Sergey Levine
- Abstract要約: 本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
- 参考スコア(独自算出の注目度): 65.52675802289775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration in reinforcement learning is a challenging problem: in the worst
case, the agent must search for high-reward states that could be hidden
anywhere in the state space. Can we define a more tractable class of RL
problems, where the agent is provided with examples of successful outcomes? In
this problem setting, the reward function can be obtained automatically by
training a classifier to categorize states as successful or not. If trained
properly, such a classifier can provide a well-shaped objective landscape that
both promotes progress toward good states and provides a calibrated exploration
bonus. In this work, we show that an uncertainty aware classifier can solve
challenging reinforcement learning problems by both encouraging exploration and
provided directed guidance towards positive outcomes. We propose a novel
mechanism for obtaining these calibrated, uncertainty-aware classifiers based
on an amortized technique for computing the normalized maximum likelihood (NML)
distribution. To make this tractable, we propose a novel method for computing
the NML distribution by using meta-learning. We show that the resulting
algorithm has a number of intriguing connections to both count-based
exploration methods and prior algorithms for learning reward functions, while
also providing more effective guidance towards the goal. We demonstrate that
our algorithm solves a number of challenging navigation and robotic
manipulation tasks which prove difficult or impossible for prior methods.
- Abstract(参考訳): 強化学習における探索は難しい問題であり、最悪の場合、エージェントは州空間のどこにでも隠れる可能性のある高次状態を探す必要がある。
エージェントが成功した結果の例を提示する、より難解なRL問題のクラスを定義できるだろうか?
この問題設定では、分類器を訓練して状態が成功するか否かを分類することにより、報酬関数を自動的に得ることができる。
適切に訓練された場合、このような分類器は、良好な状態への進行を促進し、校正された探索ボーナスを提供する、よく形をした客観的な景観を提供することができる。
本研究では,探索を奨励し,肯定的な結果への指示を与えることにより,不確かさを意識した分類器が,強化学習の課題を解決することができることを示す。
そこで本研究では,正規化最大度(NML)分布の計算手法に基づく,これらの校正された不確実性認識分類器の獲得機構を提案する。
そこで本研究では,メタラーニングを用いてnml分布を計算する新しい手法を提案する。
得られたアルゴリズムは,報奨関数を学習するためのカウントベース探索法と先行アルゴリズムの両方に多くの興味深い関係を持ち,目標に対するより効果的なガイダンスを提供する。
我々は,従来の手法では困難あるいは不可能であったナビゲーションやロボット操作の課題を,アルゴリズムが解決できることを実証した。
関連論文リスト
- Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Outcome-directed Reinforcement Learning by Uncertainty & Temporal
Distance-Aware Curriculum Goal Generation [29.155620517531656]
現在の強化学習(RL)は、望まれる結果や高い報奨がほとんど得られない挑戦的な探索問題の解決に苦しむことが多い。
両部マッチング問題を解くことにより,結果指向のRLに対する不確実性と時間的距離対応の目標生成手法を提案する。
カリキュラムの正確な校正ガイダンスを望ましい結果状態に提供できただけでなく、以前のカリキュラムRL法と比較して、サンプル効率と幾何学に依存しないカリキュラム目標の提案能力も大幅に向上した。
論文 参考訳(メタデータ) (2023-01-27T14:25:04Z) - Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。