論文の概要: Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models
- arxiv url: http://arxiv.org/abs/2011.01298v1
- Date: Mon, 2 Nov 2020 20:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:07:37.237522
- Title: Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models
- Title(参考訳): 生成モデルを用いた不完全なデモによる強化学習のための形づくり
- Authors: Yuchen Wu, Melissa Mozifian, Florian Shkurti
- Abstract要約: 本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
- 参考スコア(独自算出の注目度): 18.195406135434503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential benefits of model-free reinforcement learning to real robotics
systems are limited by its uninformed exploration that leads to slow
convergence, lack of data-efficiency, and unnecessary interactions with the
environment. To address these drawbacks we propose a method that combines
reinforcement and imitation learning by shaping the reward function with a
state-and-action-dependent potential that is trained from demonstration data,
using a generative model. We show that this accelerates policy learning by
specifying high-value areas of the state and action space that are worth
exploring first. Unlike the majority of existing methods that assume optimal
demonstrations and incorporate the demonstration data as hard constraints on
policy optimization, we instead incorporate demonstration data as advice in the
form of a reward shaping potential trained as a generative model of states and
actions. In particular, we examine both normalizing flows and Generative
Adversarial Networks to represent these potentials. We show that, unlike many
existing approaches that incorporate demonstrations as hard constraints, our
approach is unbiased even in the case of suboptimal and noisy demonstrations.
We present an extensive range of simulations, as well as experiments on the
Franka Emika 7DOF arm, to demonstrate the practicality of our method.
- Abstract(参考訳): 実際のロボットシステムに対するモデルフリー強化学習の潜在的な利点は、収束の遅さ、データ効率の欠如、環境との不要な相互作用につながる非情報探索によって制限される。
これらの欠点に対処するために,生成モデルを用いて,報酬関数と実演データから学習される状態と行動に依存したポテンシャルを形作ることで,強化学習と模倣学習を組み合わせる手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
最善のデモンストレーションを想定し、そのデモンストレーションデータをポリシー最適化の厳しい制約として取り入れる既存の手法と異なり、我々は、デモデータを、状態とアクションの生成モデルとして訓練された報酬形成ポテンシャルの形でアドバイスとして組み込む。
特に,これらのポテンシャルを表現するために,正規化フローと生成逆ネットワークの両方について検討する。
実演を厳密な制約として取り入れた既存のアプローチとは異なり,我々のアプローチは準最適かつ雑音の多い実演においても偏りがない。
我々は,Franka Emika 7DOF アームの広範囲なシミュレーションと実験を行い,本手法の実用性を実証した。
関連論文リスト
- Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Robust Imitation of a Few Demonstrations with a Backwards Model [3.8530020696501794]
専門家によるデモンストレーションの行動クローニングは、強化学習よりもよりサンプル効率のよい学習ポリシーを高速化することができる。
実験の周囲のアトラクションの領域を拡大することで、エージェントがオフコースを走行した場合に、実証軌道に戻す方法を学ぶことができるようにすることで、この問題に対処する。
最適あるいは準最適の実証では、学習されたポリシーは、偏差に対して最適かつ堅牢であり、より広いアトラクション領域を持つ。
論文 参考訳(メタデータ) (2022-10-17T18:02:19Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。