論文の概要: Adversarial Model for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.11048v1
- Date: Tue, 21 Feb 2023 23:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 16:52:50.862123
- Title: Adversarial Model for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのadversarial model
- Authors: Mohak Bhardwaj, Tengyang Xie, Byron Boots, Nan Jiang, Ching-An Cheng
- Abstract要約: モデルに基づくオフライン強化学習フレームワークであるAdversarial Model for Offline Reinforcement Learning (ARMOR)を提案する。
ARMORは、データカバレッジに関係なく、任意の参照ポリシーを改善するためのポリシーをしっかりと学習することができる。
ARMORは、最先端のオフラインモデルフリーとモデルベースRLアルゴリズムの両方で有能な性能を実現する。
- 参考スコア(独自算出の注目度): 49.55391492853606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel model-based offline Reinforcement Learning (RL) framework,
called Adversarial Model for Offline Reinforcement Learning (ARMOR), which can
robustly learn policies to improve upon an arbitrary reference policy
regardless of data coverage. ARMOR is designed to optimize policies for the
worst-case performance relative to the reference policy through adversarially
training a Markov decision process model. In theory, we prove that ARMOR, with
a well-tuned hyperparameter, can compete with the best policy within data
coverage when the reference policy is supported by the data. At the same time,
ARMOR is robust to hyperparameter choices: the policy learned by ARMOR, with
"any" admissible hyperparameter, would never degrade the performance of the
reference policy, even when the reference policy is not covered by the dataset.
To validate these properties in practice, we design a scalable implementation
of ARMOR, which by adversarial training, can optimize policies without using
model ensembles in contrast to typical model-based methods. We show that ARMOR
achieves competent performance with both state-of-the-art offline model-free
and model-based RL algorithms and can robustly improve the reference policy
over various hyperparameter choices.
- Abstract(参考訳): データカバレッジに関係なく、任意の参照ポリシーを改善するために、ポリシーをしっかりと学習できる新しいモデルベースのオフライン強化学習(RL)フレームワーク、Adversarial Model for Offline Reinforcement Learning(ARMOR)を提案する。
ARMORは、マルコフ決定プロセスモデルに対して逆向きにトレーニングすることで、参照ポリシーに対する最悪のパフォーマンスのポリシーを最適化するように設計されている。
理論的には、ARMORは、十分に調整されたハイパーパラメータを持ち、参照ポリシーがデータによってサポートされている場合、データカバレッジ内で最高のポリシーと競合できることを示す。
ARMORが学んだポリシーは、"どんな"許容可能なハイパーパラメータでも、たとえ参照ポリシーがデータセットにカバーされていない場合でも、参照ポリシーのパフォーマンスを低下させることはない。
これらの特性を実際に検証するために,従来のモデルベース手法と対照的にモデルアンサンブルを使わずにポリシーを最適化できるARMORのスケーラブルな実装を設計する。
ARMORは、最先端のオフラインモデルフリーとモデルベースRLアルゴリズムの両方で有能な性能を実現し、様々なハイパーパラメータ選択に対する参照ポリシーを堅牢に改善できることを示す。
関連論文リスト
- MoMA: Model-based Mirror Ascent for Offline Reinforcement Learning [5.399953810215838]
オフラインデータの部分的カバレッジ下での一般関数近似を用いたモデルベースミラー昇華アルゴリズムであるMoMAを開発した。
MoMAは、制限のない政策クラスを採用することで、既存の文学と差別化している。
MoMAの有効性は数値的な研究によって実証されている。
論文 参考訳(メタデータ) (2024-01-21T03:11:50Z) - Model-based Offline Reinforcement Learning with Local Misspecification [35.75701143290119]
本稿では、モデルに基づくオフライン強化学習ポリシーの性能を低くし、動的モデルの誤特定と分布ミスマッチを明示的にキャプチャする。
最適なオフラインポリシー選択のための経験的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-26T21:26:56Z) - ARMOR: A Model-based Framework for Improving Arbitrary Baseline Policies
with Offline Data [27.007647483635516]
我々は,オフライン強化学習のための適応モデル(Adversarial Models for Offline Reinforcement Learning, ARMOR)と呼ばれる新しいモデルベースオフラインRLフレームワークを提案する。
ARMORは、データカバレッジに関係なく、任意のベースラインポリシーを改善するためのポリシーを強力に学習する。
論文 参考訳(メタデータ) (2022-11-08T20:15:28Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。