論文の概要: Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models
- arxiv url: http://arxiv.org/abs/2204.08573v1
- Date: Mon, 18 Apr 2022 22:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 15:09:33.333696
- Title: Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models
- Title(参考訳): 強化学習と生成モデルを用いた深層政策の訓練と評価
- Authors: Ali Ghadirzadeh, Petra Poklukar, Karol Arndt, Chelsea Finn, Ville
Kyrki, Danica Kragic and M{\aa}rten Bj\"orkman
- Abstract要約: GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
- 参考スコア(独自算出の注目度): 67.78935378952146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a data-efficient framework for solving sequential decision-making
problems which exploits the combination of reinforcement learning (RL) and
latent variable generative models. The framework, called GenRL, trains deep
policies by introducing an action latent variable such that the feed-forward
policy search can be divided into two parts: (i) training a sub-policy that
outputs a distribution over the action latent variable given a state of the
system, and (ii) unsupervised training of a generative model that outputs a
sequence of motor actions conditioned on the latent action variable. GenRL
enables safe exploration and alleviates the data-inefficiency problem as it
exploits prior knowledge about valid sequences of motor actions. Moreover, we
provide a set of measures for evaluation of generative models such that we are
able to predict the performance of the RL policy training prior to the actual
training on a physical robot. We experimentally determine the characteristics
of generative models that have most influence on the performance of the final
policy training on two robotics tasks: shooting a hockey puck and throwing a
basketball. Furthermore, we empirically demonstrate that GenRL is the only
method which can safely and efficiently solve the robotics tasks compared to
two state-of-the-art RL methods.
- Abstract(参考訳): 本稿では、強化学習(RL)と潜在変数生成モデルの組み合わせを利用して、逐次意思決定問題を解決するためのデータ効率フレームワークを提案する。
genrlと呼ばれるこのフレームワークは,フィードフォワードポリシ検索を2つの部分に分割するように,アクション潜在変数を導入することで,深いポリシをトレーニングする。
(i)システムの状態が与えられた場合に、アクション潜在変数上の分布を出力するサブポリシーを訓練すること。
(ii)潜在動作変数に条件づけられた一連の運動動作を出力する生成モデルの教師なしトレーニング。
GenRLは、モータアクションの有効なシーケンスに関する事前知識を利用するため、安全な探索を可能にし、データ効率の問題を軽減する。
さらに,ロボットの実際のトレーニングに先立って,RLポリシートレーニングの性能を予測できるように,生成モデルの評価のための一連の指標を提供する。
ホッケーパックを撃ち、バスケットボールを投げるという2つのロボティクスタスクにおける最終方針トレーニングのパフォーマンスに最も影響を与える生成モデルの特徴を実験的に決定する。
さらに,2つの最先端RL法と比較して,ロボットのタスクを安全かつ効率的に解決できる手法はGenRLのみであることを示す。
関連論文リスト
- Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - PASTA: Pretrained Action-State Transformer Agents [10.654719072766495]
自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
論文 参考訳(メタデータ) (2023-07-20T15:09:06Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - Data-efficient visuomotor policy training using reinforcement learning
and generative models [27.994338318811952]
本稿では,ビジュモータの逐次的意思決定問題を解決するためのデータ効率フレームワークを提案する。
我々は強化学習と潜在変数生成モデルの組み合わせを利用する。
論文 参考訳(メタデータ) (2020-07-26T14:19:00Z) - Stealing Deep Reinforcement Learning Models for Fun and Profit [33.64948529132546]
本稿では,Deep Reinforcement Learning (DRL) に対する最初のモデル抽出攻撃を提案する。
これにより、外部の敵は環境との相互作用からのみブラックボックスDRLモデルを正確に回復することができる。
論文 参考訳(メタデータ) (2020-06-09T03:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。