論文の概要: Deployment-Efficient Reinforcement Learning via Model-Based Offline
Optimization
- arxiv url: http://arxiv.org/abs/2006.03647v2
- Date: Tue, 23 Jun 2020 16:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:32:57.188848
- Title: Deployment-Efficient Reinforcement Learning via Model-Based Offline
Optimization
- Title(参考訳): モデルベースオフライン最適化によるデプロイ効率の良い強化学習
- Authors: Tatsuya Matsushima, Hiroki Furuta, Yutaka Matsuo, Ofir Nachum,
Shixiang Gu
- Abstract要約: 本稿では,政策学習に使用される異なるデータ収集ポリシーの数を測定する,展開効率の新たな概念を提案する。
本研究では,従来よりも10~20倍少ないデータを用いてオフラインでポリシーを効果的に最適化できるモデルベースアルゴリズムBREMENを提案する。
- 参考スコア(独自算出の注目度): 46.017212565714175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most reinforcement learning (RL) algorithms assume online access to the
environment, in which one may readily interleave updates to the policy with
experience collection using that policy. However, in many real-world
applications such as health, education, dialogue agents, and robotics, the cost
or potential risk of deploying a new data-collection policy is high, to the
point that it can become prohibitive to update the data-collection policy more
than a few times during learning. With this view, we propose a novel concept of
deployment efficiency, measuring the number of distinct data-collection
policies that are used during policy learning. We observe that na\"{i}vely
applying existing model-free offline RL algorithms recursively does not lead to
a practical deployment-efficient and sample-efficient algorithm. We propose a
novel model-based algorithm, Behavior-Regularized Model-ENsemble (BREMEN) that
can effectively optimize a policy offline using 10-20 times fewer data than
prior works. Furthermore, the recursive application of BREMEN is able to
achieve impressive deployment efficiency while maintaining the same or better
sample efficiency, learning successful policies from scratch on simulated
robotic environments with only 5-10 deployments, compared to typical values of
hundreds to millions in standard RL baselines. Codes and pre-trained models are
available at https://github.com/matsuolab/BREMEN .
- Abstract(参考訳): ほとんどの強化学習(rl)アルゴリズムは、オンライン環境へのアクセスを前提としており、そのポリシーを使って、経験を収集したポリシーに簡単に更新をインターリーブすることができる。
しかし、健康、教育、対話エージェント、ロボット工学といった現実世界の多くのアプリケーションでは、新しいデータ収集ポリシーを展開するコストや潜在的なリスクが高いため、学習中にデータ収集ポリシーを数回更新することが禁止される可能性がある。
そこで,本稿では,ポリシー学習中に使用されるデータ収集ポリシーの数を計測し,展開効率の新しい概念を提案する。
既存のモデルレスオフラインRLアルゴリズムを再帰的に適用しても,実用的な展開効率とサンプル効率のアルゴリズムは得られない。
本研究では,従来よりも10~20倍少ないデータを用いてオフラインでポリシーを効果的に最適化できるモデルベースアルゴリズムBREMENを提案する。
さらに、bremenの再帰的適用は、同じまたはより良いサンプル効率を維持しながら、印象的なデプロイメント効率を達成でき、標準的なrlベースラインの典型的な値と比べて、5~10回のデプロイでシミュレーションされたロボット環境上で、成功したポリシーをスクラッチから学習することができる。
コードと事前トレーニングされたモデルはhttps://github.com/matsuolab/BREMEN で公開されている。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Statistically Efficient Advantage Learning for Offline Reinforcement
Learning in Infinite Horizons [16.635744815056906]
モバイルヘルスアプリケーションなどのオンラインデータ収集を伴わないオフライン領域での強化学習手法を検討する。
提案手法は、既存の最先端RLアルゴリズムによって計算された最適Q推定器を入力とし、初期Q推定器に基づいて導出されたポリシーよりも高速に収束することが保証された新しいポリシーを出力する。
論文 参考訳(メタデータ) (2022-02-26T15:29:46Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。