論文の概要: Imaginary Hindsight Experience Replay: Curious Model-based Learning for
Sparse Reward Tasks
- arxiv url: http://arxiv.org/abs/2110.02414v1
- Date: Tue, 5 Oct 2021 23:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 07:56:11.236406
- Title: Imaginary Hindsight Experience Replay: Curious Model-based Learning for
Sparse Reward Tasks
- Title(参考訳): imaginary hindsight experience replay: まばらな報酬タスクのためのモデルベース学習
- Authors: Robert McCarthy, Stephen J. Redmond
- Abstract要約: 複雑な報酬工学の必要性を先導するスパース・リワードタスクに適したモデルベース手法を提案する。
このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。
評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均的なデータ効率が桁違いに向上する。
- 参考スコア(独自算出の注目度): 1.6317061277456997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning is a promising learning strategy for
practical robotic applications due to its improved data-efficiency versus
model-free counterparts. However, current state-of-the-art model-based methods
rely on shaped reward signals, which can be difficult to design and implement.
To remedy this, we propose a simple model-based method tailored for
sparse-reward multi-goal tasks that foregoes the need for complicated reward
engineering. This approach, termed Imaginary Hindsight Experience Replay,
minimises real-world interactions by incorporating imaginary data into policy
updates. To improve exploration in the sparse-reward setting, the policy is
trained with standard Hindsight Experience Replay and endowed with
curiosity-based intrinsic rewards. Upon evaluation, this approach provides an
order of magnitude increase in data-efficiency on average versus the
state-of-the-art model-free method in the benchmark OpenAI Gym Fetch Robotics
tasks.
- Abstract(参考訳): モデルベース強化学習は、データ効率が向上し、モデルフリーのロボットアプリケーションにとって有望な学習戦略である。
しかし、現在の最先端のモデルベースの手法は、設計や実装が難しいような形状の報酬信号に依存している。
そこで本研究では,複雑な報酬工学の必要性を先取りする,スパース・リワード・マルチゴールタスクに適したシンプルなモデルベース手法を提案する。
このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。
スパース・リワード・セッティングにおける探索を改善するため、このポリシーは標準のヒンズート・エクスペリエンス・リプレイで訓練され、好奇心に基づく本質的な報酬が与えられる。
評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均データ効率が桁違いに向上する。
関連論文リスト
- Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - REMAX: Relational Representation for Multi-Agent Exploration [13.363887960136102]
ゲームの初期状態を生成する学習ベースの探索戦略を提案する。
本手法は,既存の探査手法よりも,MARLモデルの訓練と性能を向上させることを実証する。
論文 参考訳(メタデータ) (2020-08-12T10:23:35Z) - Modeling Survival in model-based Reinforcement Learning [0.0]
この研究は、エージェントの目的が生き残ることの事例を議論することで生存の概念を提示する。
端末状態を避けることを学ぶ報奨関数近似の代用モデルを導入する。
終端状態に注目することは、少数の状態空間として、トレーニングの労力を大幅に削減する。
論文 参考訳(メタデータ) (2020-04-18T15:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。