論文の概要: Residual Reinforcement Learning from Demonstrations
- arxiv url: http://arxiv.org/abs/2106.08050v1
- Date: Tue, 15 Jun 2021 11:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:07:05.425664
- Title: Residual Reinforcement Learning from Demonstrations
- Title(参考訳): デモからの残留強化学習
- Authors: Minttu Alakuijala (WILLOW, Thoth), Gabriel Dulac-Arnold, Julien Mairal
(Thoth), Jean Ponce (WILLOW), Cordelia Schmid
- Abstract要約: 報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
- 参考スコア(独自算出の注目度): 51.56457466788513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residual reinforcement learning (RL) has been proposed as a way to solve
challenging robotic tasks by adapting control actions from a conventional
feedback controller to maximize a reward signal. We extend the residual
formulation to learn from visual inputs and sparse rewards using
demonstrations. Learning from images, proprioceptive inputs and a sparse
task-completion reward relaxes the requirement of accessing full state
features, such as object and target positions. In addition, replacing the base
controller with a policy learned from demonstrations removes the dependency on
a hand-engineered controller in favour of a dataset of demonstrations, which
can be provided by non-experts. Our experimental evaluation on simulated
manipulation tasks on a 6-DoF UR5 arm and a 28-DoF dexterous hand demonstrates
that residual RL from demonstrations is able to generalize to unseen
environment conditions more flexibly than either behavioral cloning or RL
fine-tuning, and is capable of solving high-dimensional, sparse-reward tasks
out of reach for RL from scratch.
- Abstract(参考訳): 報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(RL)が提案されている。
視覚入力から学習するために残留定式化を拡張し,実演を用いてスパース報酬を得る。
画像、プロプレプティブ入力、スパースタスク補完報酬から学ぶことで、オブジェクトやターゲット位置などの完全な状態特徴にアクセスする必要が緩和される。
さらに、ベースコントローラをデモから学んだポリシーに置き換えることで、非専門家が提供できるデモのデータセットに賛成して、手作業によるコントローラへの依存を排除できる。
6-DoF UR5 アームと28-DoF dexterous ハンドのシミュレーション操作に関する実験的評価は、デモからの残留 RL が、行動的クローニングやRL微調整よりも柔軟で、RL をスクラッチから切り離した高次元のスパース・リワードタスクを解くことができることを示す。
関連論文リスト
- World Models Increase Autonomy in Reinforcement Learning [6.151562278670799]
強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための魅力的なパラダイムである。
MoReFreeエージェントは、リセット不要タスクを処理するために、探索とポリシー学習という2つの重要なメカニズムを適用する。
環境報酬やデモンストレーションへのアクセスなしに、様々なリセットのないタスクに対して優れたデータ効率を示す。
論文 参考訳(メタデータ) (2024-08-19T08:56:00Z) - Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。
その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T15:53:13Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文 参考訳(メタデータ) (2022-10-26T02:28:32Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。