論文の概要: MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.07184v1
- Date: Thu, 15 Jul 2021 08:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 13:49:47.265951
- Title: MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning
- Title(参考訳): 壁画: 結果駆動強化学習のためのメタラーニング不確実性認識報酬
- Authors: Kevin Li, Abhishek Gupta, Ashwin Reddy, Vitchyr Pong, Aurick Zhou,
Justin Yu, Sergey Levine
- Abstract要約: 探索を奨励し、肯定的な結果への指示を与えることにより、不確実性を考慮した分類器が、困難な強化学習問題を解決することができることを示す。
そこで本研究では,正規化最大度(NML)分布の計算手法に基づく,これらの校正された不確実性認識分類器の獲得機構を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
- 参考スコア(独自算出の注目度): 65.52675802289775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration in reinforcement learning is a challenging problem: in the worst
case, the agent must search for reward states that could be hidden anywhere in
the state space. Can we define a more tractable class of RL problems, where the
agent is provided with examples of successful outcomes? In this problem
setting, the reward function can be obtained automatically by training a
classifier to categorize states as successful or not. If trained properly, such
a classifier can not only afford a reward function, but actually provide a
well-shaped objective landscape that both promotes progress toward good states
and provides a calibrated exploration bonus. In this work, we we show that an
uncertainty aware classifier can solve challenging reinforcement learning
problems by both encouraging exploration and provided directed guidance towards
positive outcomes. We propose a novel mechanism for obtaining these calibrated,
uncertainty-aware classifiers based on an amortized technique for computing the
normalized maximum likelihood (NML) distribution, also showing how these
techniques can be made computationally tractable by leveraging tools from
meta-learning. We show that the resulting algorithm has a number of intriguing
connections to both count-based exploration methods and prior algorithms for
learning reward functions, while also providing more effective guidance towards
the goal. We demonstrate that our algorithm solves a number of challenging
navigation and robotic manipulation tasks which prove difficult or impossible
for prior methods.
- Abstract(参考訳): 強化学習の探求は難しい問題であり、最悪の場合、エージェントは州空間のどこにでも隠れる可能性のある報酬状態を探す必要がある。
エージェントが成功した結果の例を提示する、より難解なRL問題のクラスを定義できるだろうか?
この問題設定では、分類器を訓練して状態が成功するか否かを分類することにより、報酬関数を自動的に得ることができる。
適切に訓練された場合、そのような分類器は報酬関数を与えるだけでなく、実際には良好な状態への進歩を促進し、校正された探索ボーナスを提供する、よく形作られた客観的な景観を提供することができる。
本研究では,不確実性を認識した分類器が,探索を奨励し,肯定的な結果への指示を与えることによって,強化学習の課題を解決できることを示す。
正規化最大度(NML)分布を計算するための補正手法を応用し,これらの手法をメタラーニングのツールを活用して計算可能とする手法を提案する。
得られたアルゴリズムは,報奨関数を学習するためのカウントベース探索法と先行アルゴリズムの両方に多くの興味深い関係を持ち,目標に対するより効果的なガイダンスを提供する。
我々は,従来の手法では困難あるいは不可能であったナビゲーションやロボット操作の課題を,アルゴリズムが解決できることを実証した。
関連論文リスト
- Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Outcome-directed Reinforcement Learning by Uncertainty & Temporal
Distance-Aware Curriculum Goal Generation [29.155620517531656]
現在の強化学習(RL)は、望まれる結果や高い報奨がほとんど得られない挑戦的な探索問題の解決に苦しむことが多い。
両部マッチング問題を解くことにより,結果指向のRLに対する不確実性と時間的距離対応の目標生成手法を提案する。
カリキュラムの正確な校正ガイダンスを望ましい結果状態に提供できただけでなく、以前のカリキュラムRL法と比較して、サンプル効率と幾何学に依存しないカリキュラム目標の提案能力も大幅に向上した。
論文 参考訳(メタデータ) (2023-01-27T14:25:04Z) - Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。