論文の概要: A Unified Framework for Alternating Offline Model Training and Policy
Learning
- arxiv url: http://arxiv.org/abs/2210.05922v1
- Date: Wed, 12 Oct 2022 04:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:49:38.393372
- Title: A Unified Framework for Alternating Offline Model Training and Policy
Learning
- Title(参考訳): オフラインモデルトレーニングと政策学習の交換のための統一フレームワーク
- Authors: Shentao Yang, Shujian Zhang, Yihao Feng, Mingyuan Zhou
- Abstract要約: オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
- 参考スコア(独自算出の注目度): 62.19209005400561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In offline model-based reinforcement learning (offline MBRL), we learn a
dynamic model from historically collected data, and subsequently utilize the
learned model and fixed datasets for policy learning, without further
interacting with the environment. Offline MBRL algorithms can improve the
efficiency and stability of policy learning over the model-free algorithms.
However, in most of the existing offline MBRL algorithms, the learning
objectives for the dynamic models and the policies are isolated from each
other. Such an objective mismatch may lead to inferior performance of the
learned agents. In this paper, we address this issue by developing an iterative
offline MBRL framework, where we maximize a lower bound of the true expected
return, by alternating between dynamic-model training and policy learning. With
the proposed unified model-policy learning framework, we achieve competitive
performance on a wide range of continuous-control offline reinforcement
learning datasets. Source code is publicly released.
- Abstract(参考訳): オフラインモデルに基づく強化学習(オフラインMBRL)では、歴史的に収集されたデータから動的モデルを学習し、その後、学習モデルと固定データセットを環境と相互作用することなくポリシー学習に活用する。
オフラインMBRLアルゴリズムは、モデルフリーアルゴリズムよりもポリシー学習の効率と安定性を向上させることができる。
しかし、既存のオフラインMBRLアルゴリズムの多くでは、動的モデルとポリシーの学習目的は互いに分離されている。
このような客観的なミスマッチは、学習したエージェントのパフォーマンスを低下させる可能性がある。
本稿では,動的モデルトレーニングと政策学習を交互に組み合わせることで,本手法が期待するリターンの低限界を最大化する,反復的オフラインMBRLフレームワークを開発することでこの問題に対処する。
提案する統一型モデル政治学習フレームワークにより, 広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
ソースコードは公開されている。
関連論文リスト
- Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルに基づく強化学習(MBRL)は、データ駆動による意思決定と制御のための強力なアプローチである。
オフラインデータセットで同一の動作をする様々なMDPが存在する可能性があるため、真のMDPに関する不確実性に対処することは困難である。
本研究では,BAMDPを連続状態および動作空間で解くことのできるベイズ適応モンテカルロ計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Unified Off-Policy Learning to Rank: a Reinforcement Learning
Perspective [61.4025671743675]
メソッドをランク付けするオフポリシー学習は、ユーザがクリックデータを生成する方法に関して、強い仮定をすることが多い。
オフライン強化学習は,複雑なデバイアス手法や事前知識を使わずに,様々なクリックモデルに適応できることを示す。
様々な大規模データセットの結果から、CUOLRはアルゴリズムのランク付けに最先端のオフポリシー学習を一貫して上回っていることが示される。
論文 参考訳(メタデータ) (2023-06-13T03:46:22Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - TOM: Learning Policy-Aware Models for Model-Based Reinforcement Learning
via Transition Occupancy Matching [28.743727234246126]
モデル学習のための新しい「遷移占有マッチング」 (TOM) 手法を提案する。
TOMは、現在のポリシーが実際の環境と同じモデル内で遷移の分布を経験する程度に優れている。
TOMは、政策関連体験にモデル学習を集中させ、政策をより高いタスク報酬に迅速に進めることに成功していることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:06:09Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Online and Offline Reinforcement Learning by Planning with a Learned
Model [15.8026041700727]
本稿では、モデルベースのポリシーと値改善演算子を用いて、既存のデータポイント上の新しい改善されたトレーニングターゲットを計算するReanalyseアルゴリズムについて述べる。
Reanalyseは環境相互作用のない実演から完全に学習するためにも利用できることを示す。
オフラインRLを含む任意のデータ予算に対して単一の統一アルゴリズムである MuZero Unplugged を導入する。
論文 参考訳(メタデータ) (2021-04-13T15:36:06Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。