論文の概要: D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning
- arxiv url: http://arxiv.org/abs/2210.14428v1
- Date: Wed, 26 Oct 2022 02:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:47:45.995533
- Title: D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning
- Title(参考訳): D-Shape:ゴールコンディショニングによるデモ型強化学習
- Authors: Caroline Wang, Garrett Warnell, Peter Stone
- Abstract要約: D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
- 参考スコア(独自算出の注目度): 48.57484755946714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While combining imitation learning (IL) and reinforcement learning (RL) is a
promising way to address poor sample efficiency in autonomous behavior
acquisition, methods that do so typically assume that the requisite behavior
demonstrations are provided by an expert that behaves optimally with respect to
a task reward. If, however, suboptimal demonstrations are provided, a
fundamental challenge appears in that the demonstration-matching objective of
IL conflicts with the return-maximization objective of RL. This paper
introduces D-Shape, a new method for combining IL and RL that uses ideas from
reward shaping and goal-conditioned RL to resolve the above conflict. D-Shape
allows learning from suboptimal demonstrations while retaining the ability to
find the optimal policy with respect to the task reward. We experimentally
validate D-Shape in sparse-reward gridworld domains, showing that it both
improves over RL in terms of sample efficiency and converges consistently to
the optimal policy in the presence of suboptimal demonstrations.
- Abstract(参考訳): 模倣学習(IL)と強化学習(RL)を組み合わせることは、自律的行動獲得におけるサンプル効率の低さに対処するための有望な方法であるが、通常、必要な行動実証はタスク報酬に関して最適に振舞う専門家によって提供される。
しかし、もし準最適実証が提供される場合、ILの実証マッチング目的がRLの戻り最大化目標と矛盾するという根本的な課題が現れる。
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
d-shapeは、タスク報酬に関して最適なポリシーを見つける能力を保持しながら、サブ最適のデモンストレーションから学ぶことができる。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し,サンプル効率の観点からRLよりも改善し,最適条件に収束することを示した。
関連論文リスト
- Inverse Reinforcement Learning by Estimating Expertise of Demonstrators [18.50354748863624]
IRLEED(Inverse Reinforcement Learning by Estimating Expertise of Demonstrators)は、実証者の専門知識の事前知識なしにハードルを克服する新しいフレームワークである。
IRLEEDは既存の逆強化学習(IRL)アルゴリズムを強化し、報酬バイアスと行動分散に対処するために、実証者準最適性のための一般的なモデルを組み合わせる。
オンラインおよびオフラインのIL設定、シミュレーションと人為的なデータによる実験は、IRLEEDの適応性と有効性を示している。
論文 参考訳(メタデータ) (2024-02-02T20:21:09Z) - Trajectory-Oriented Policy Optimization with Sparse Rewards [3.3270698477622784]
本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。
私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。
次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
論文 参考訳(メタデータ) (2024-01-04T12:21:01Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [22.842308869723738]
我々は, (i) 対照的な教師なし学習と (ii) 介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は現状のモデルベースおよびモデルフリーのRL法よりも優れており,iGibsonベンチマークで評価された分布外点ナビゲーションタスクに大きく貢献する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Efficient Reinforcement Learning from Demonstration Using Local Ensemble
and Reparameterization with Split and Merge of Expert Policies [7.126594773940676]
準最適デモから学んだ政策は、不正または非ローカルな行動決定をしたエージェントを誤解させる可能性がある。
そこで本稿では,LEARN-SAM (Local Ensemble and Re parameterization with Split and Merge of Expert Policy) という手法を提案する。
低次元から高次元の複雑な連続制御問題に対する6つの実験において、LEARN-SAM法の優位性と、その頑健さを実証的品質と疎性で示す。
論文 参考訳(メタデータ) (2022-05-23T03:36:24Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Inverse Reinforcement Learning via Matching of Optimality Profiles [2.561053769852449]
準最適あるいは不均一な性能の実証から報酬関数を学習するアルゴリズムを提案する。
提案手法は,報酬関数を最適化するためのポリシーが,報酬関数の適合に使用する実演よりも優れるような報酬関数を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-18T13:23:43Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。