論文の概要: Data-efficient visuomotor policy training using reinforcement learning
and generative models
- arxiv url: http://arxiv.org/abs/2007.13134v2
- Date: Fri, 6 Nov 2020 17:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 20:18:44.756034
- Title: Data-efficient visuomotor policy training using reinforcement learning
and generative models
- Title(参考訳): 強化学習と生成モデルを用いたデータ効率向上型ビズモータポリシートレーニング
- Authors: Ali Ghadirzadeh, Petra Poklukar, Ville Kyrki, Danica Kragic and
M{\aa}rten Bj\"orkman
- Abstract要約: 本稿では,ビジュモータの逐次的意思決定問題を解決するためのデータ効率フレームワークを提案する。
我々は強化学習と潜在変数生成モデルの組み合わせを利用する。
- 参考スコア(独自算出の注目度): 27.994338318811952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a data-efficient framework for solving visuomotor sequential
decision-making problems which exploits the combination of reinforcement
learning (RL) and latent variable generative models. Our framework trains deep
visuomotor policies by introducing an action latent variable such that the
feed-forward policy search can be divided into three parts: (i) training a
sub-policy that outputs a distribution over the action latent variable given a
state of the system, (ii) unsupervised training of a generative model that
outputs a sequence of motor actions conditioned on the latent action variable,
and (iii) supervised training of the deep visuomotor policy in an end-to-end
fashion. Our approach enables safe exploration and alleviates the
data-inefficiency problem as it exploits prior knowledge about valid sequences
of motor actions. Moreover, we provide a set of measures for evaluation of
generative models such that we are able to predict the performance of the RL
policy training prior to the actual training on a physical robot. We define two
novel measures of disentanglement and local linearity for assessing the quality
of latent representations, and complement them with existing measures for
assessment of the learned distribution. We experimentally determine the
characteristics of different generative models that have the most influence on
performance of the final policy training on a robotic picking task.
- Abstract(参考訳): 本稿では、強化学習(RL)と潜在変数生成モデルの組み合わせを利用して、ビジュモータの逐次決定問題を解決するためのデータ効率の枠組みを提案する。
本フレームワークは,フィードフォワードポリシ探索を3つの部分に分割するように,アクション潜在変数を導入することで,深いバイスモータポリシを訓練する。
i) システムの状態が与えられたアクション潜在変数上の分布を出力するサブポリシーを訓練すること。
(ii)潜在動作変数を条件とした一連の運動動作を出力する生成モデルの教師なし訓練、及び
(iii)エンド・ツー・エンドの形で深部視標政策の訓練を監督した。
本手法は,運動行動の有効なシーケンスに関する事前知識を活用することにより,安全な探索とデータ効率の問題を軽減する。
さらに,ロボットの実際のトレーニングに先立って,RLポリシートレーニングの性能を予測できるように,生成モデルの評価のための一連の指標を提供する。
本研究では,潜在表現の質を評価するために,アンタングルメントと局所線形性の2つの新しい尺度を定義し,学習分布の評価のための既存の尺度と補完する。
我々は,ロボットピッキング作業における最終方針訓練の性能に最も影響を与える,異なる生成モデルの特徴を実験的に決定する。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - For Pre-Trained Vision Models in Motor Control, Not All Policy Learning
Methods are Created Equal [17.467998596393116]
事前訓練された視覚モデルが異なる制御ポリシーの下で有効性に一貫性があるかどうかは不明である。
本研究は, 事前学習の有効性が下流政策学習アルゴリズムの選択に大きく依存していることの発見を含む, 一連の興味深い結果をもたらす。
論文 参考訳(メタデータ) (2023-04-10T13:52:19Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Reinforcement Learning Under Algorithmic Triage [33.80293624975863]
トリアージ下で強化学習モデルを学ぶための2段階アクター批判手法を開発した。
最初の段階は、人間が単独で操作した環境で収集された人間のデータを使って、オフラインで非政治的な訓練を行う。
第2段階は、人間の政策に切り替えが与える影響を考慮し、政治上の訓練を行う。
論文 参考訳(メタデータ) (2021-09-23T12:21:26Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。