論文の概要: OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation
- arxiv url: http://arxiv.org/abs/2106.10783v1
- Date: Mon, 21 Jun 2021 00:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:56:04.088660
- Title: OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation
- Title(参考訳): OptiDICE:定常分布補正推定によるオフライン政策最適化
- Authors: Jongmin Lee, Wonseok Jeon, Byung-Jun Lee, Joelle Pineau, Kee-Eung Kim
- Abstract要約: より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
- 参考スコア(独自算出の注目度): 59.469401906712555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the offline reinforcement learning (RL) setting where the agent
aims to optimize the policy solely from the data without further environment
interactions. In offline RL, the distributional shift becomes the primary
source of difficulty, which arises from the deviation of the target policy
being optimized from the behavior policy used for data collection. This
typically causes overestimation of action values, which poses severe problems
for model-free algorithms that use bootstrapping. To mitigate the problem,
prior offline RL algorithms often used sophisticated techniques that encourage
underestimation of action values, which introduces an additional set of
hyperparameters that need to be tuned properly. In this paper, we present an
offline RL algorithm that prevents overestimation in a more principled way. Our
algorithm, OptiDICE, directly estimates the stationary distribution corrections
of the optimal policy and does not rely on policy-gradients, unlike previous
offline RL algorithms. Using an extensive set of benchmark datasets for offline
RL, we show that OptiDICE performs competitively with the state-of-the-art
methods.
- Abstract(参考訳): エージェントは,データからのみポリシーを最適化することを目的としたオフライン強化学習(RL)を,環境の相互作用を伴わずに検討する。
オフラインRLでは、データ収集に使用される行動ポリシーから最適化された対象ポリシーの偏りから生じる、分散シフトが主な困難の原因となる。
これは通常、アクション値の過大評価を引き起こし、ブートストラップを使用するモデルフリーアルゴリズムに深刻な問題を引き起こす。
この問題を軽減するために、事前のオフラインRLアルゴリズムは、アクション値の過小評価を促進する高度な技術を使用しており、適切に調整する必要がある追加のハイパーパラメータが導入された。
本稿では,より原理化された方法で過大評価を防止するオフラインRLアルゴリズムを提案する。
我々のアルゴリズムであるOptiDICEは、最適ポリシーの定常分布補正を直接推定し、従来のオフラインRLアルゴリズムとは異なり、ポリシーの勾配に依存しない。
オフラインRLのための広範なベンチマークデータセットを用いて、OptiDICEが最先端の手法と競合することを示す。
関連論文リスト
- The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。
グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。
KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-03T15:51:04Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Behavior Proximal Policy Optimization [14.701955559885615]
オフライン強化学習(英語: offline reinforcement learning, RL)は、既存の非政治アクター批判的手法が不十分な課題である。
オンラインのオンライン政治アルゴリズムは、自然にオフラインのRLを解くことができる。
本稿では,制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
論文 参考訳(メタデータ) (2023-02-22T11:49:12Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline RL Policies Should be Trained to be Adaptive [89.8580376798065]
ベイズ的意味において、オフラインRLで最適に振る舞うには暗黙のPOMDPを解く必要があることを示す。
結果として、オフラインRLの最適ポリシーは、現在の状態だけでなく、評価中にこれまで見られたすべての遷移に依存して適応されなければならない。
本稿では、この最適適応ポリシーを近似するモデルフリーアルゴリズムを提案し、オフラインRLベンチマークにおける適応ポリシーの学習の有効性を実証する。
論文 参考訳(メタデータ) (2022-07-05T17:58:33Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。