論文の概要: Offline Learning of Counterfactual Predictions for Real-World Robotic
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.05857v2
- Date: Fri, 25 Feb 2022 21:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:44:40.937690
- Title: Offline Learning of Counterfactual Predictions for Real-World Robotic
Reinforcement Learning
- Title(参考訳): 実世界のロボット強化学習における対物予測のオフライン学習
- Authors: Jun Jin, Daniel Graves, Cameron Haigh, Jun Luo and Martin Jagersand
- Abstract要約: 我々はマニピュレータの関節速度にマルチモーダル感覚観測(ビジョンと力)をマッピングする政策を訓練する。
オンライン政策学習におけるオフライン学習の反事実予測と強制フィードバックを組み合わせることで,効果的な強化学習が可能になることを示す。
- 参考スコア(独自算出の注目度): 9.86154691244963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider real-world reinforcement learning (RL) of robotic manipulation
tasks that involve both visuomotor skills and contact-rich skills. We aim to
train a policy that maps multimodal sensory observations (vision and force) to
a manipulator's joint velocities under practical considerations. We propose to
use offline samples to learn a set of general value functions (GVFs) that make
counterfactual predictions from the visual inputs. We show that combining the
offline learned counterfactual predictions with force feedbacks in online
policy learning allows efficient reinforcement learning given only a terminal
(success/failure) reward. We argue that the learned counterfactual predictions
form a compact and informative representation that enables sample efficiency
and provides auxiliary reward signals that guide online explorations towards
contact-rich states. Various experiments in simulation and real-world settings
were performed for evaluation. Recordings of the real-world robot training can
be found via https://sites.google.com/view/realrl.
- Abstract(参考訳): 本稿では,ロボット操作作業における実世界強化学習(RL)について考察する。
本研究の目的は,マルチモーダルセンサス観測(ビジョンと力)をマニピュレータの関節速度に実用的な考慮のもとマッピングする政策を訓練することである。
本稿では,オフラインサンプルを用いて,視覚入力から偽の予測を行う一般値関数(gvfs)のセットを学習することを提案する。
オンライン政策学習におけるオフライン学習の反事実予測と力強いフィードバックを組み合わせることで,端末(成功/失敗)報酬のみを与えられる効果的な強化学習が可能になることを示す。
学習した反事実予測は、サンプル効率を向上し、オンライン探索を接触豊富な状態へと導く補助的な報酬信号を提供するコンパクトで情報的な表現を形成すると論じる。
シミュレーションと実環境設定の様々な実験を行った。
実際のロボットトレーニングの記録はhttps://sites.google.com/view/realrl.comで見ることができる。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Enhancing Robot Learning through Learned Human-Attention Feature Maps [6.724036710994883]
ロボット学習にフォーカスポイントに関する補助情報を埋め込むことで、学習プロセスの効率性と堅牢性が向上すると考えられる。
本稿では,人間の注意を近似予測モデルでモデル化し,エミュレートするための新しいアプローチを提案する。
我々は,物体検出と模倣学習という2つの学習課題にアプローチを試行する。
論文 参考訳(メタデータ) (2023-08-29T14:23:44Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Learning predictive representations in autonomous driving to improve
deep reinforcement learning [9.919972770800822]
新たな予測表現を用いた強化学習を自律運転に適用する。
新たな予測表現は、一般値関数(GVF)によって学習され、将来の車線中心性と道路角度の予測を提供する。
シミュレーションと実世界の両方の実験では、強化学習における予測表現が学習効率、制御の滑らかさ、およびエージェントが訓練中に表示されなかった道路への一般化を改善することが示されている。
論文 参考訳(メタデータ) (2020-06-26T17:17:47Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。