論文の概要: CROP: Conservative Reward for Model-based Offline Policy Optimization
- arxiv url: http://arxiv.org/abs/2310.17245v1
- Date: Thu, 26 Oct 2023 08:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 21:22:06.799046
- Title: CROP: Conservative Reward for Model-based Offline Policy Optimization
- Title(参考訳): CROP:モデルベースオフライン政策最適化のための保守的リワード
- Authors: Hao Li, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Zhen-Qiu Feng,
Xiao-Yin Liu, Mei-Jiang Gui, Tian-Yu Xiang, De-Xing Huang, Bo-Xian Yao,
Zeng-Guang Hou
- Abstract要約: 本稿では、モデルベースオフラインポリシー最適化(CROP)のための新しいモデルベースオフラインRLアルゴリズム、保守的リワードを提案する。
保守的な報奨推定を実現するため、CROPは、ランダムな動作の推定誤差と報酬を同時に最小化する。
特にCROPは、オフラインRLとオンラインRLの革新的な接続を確立し、オンラインRL技術を採用することでオフラインRLの問題に取り組むことができることを強調している。
- 参考スコア(独自算出の注目度): 15.121328040092264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) aims to optimize policy using collected
data without online interactions. Model-based approaches are particularly
appealing for addressing offline RL challenges due to their capability to
mitigate the limitations of offline data through data generation using models.
Prior research has demonstrated that introducing conservatism into the model or
Q-function during policy optimization can effectively alleviate the prevalent
distribution drift problem in offline RL. However, the investigation into the
impacts of conservatism in reward estimation is still lacking. This paper
proposes a novel model-based offline RL algorithm, Conservative Reward for
model-based Offline Policy optimization (CROP), which conservatively estimates
the reward in model training. To achieve a conservative reward estimation, CROP
simultaneously minimizes the estimation error and the reward of random actions.
Theoretical analysis shows that this conservative reward mechanism leads to a
conservative policy evaluation and helps mitigate distribution drift.
Experiments on D4RL benchmarks showcase that the performance of CROP is
comparable to the state-of-the-art baselines. Notably, CROP establishes an
innovative connection between offline and online RL, highlighting that offline
RL problems can be tackled by adopting online RL techniques to the empirical
Markov decision process trained with a conservative reward. The source code is
available with https://github.com/G0K0URURI/CROP.git.
- Abstract(参考訳): オフライン強化学習(RL)は、オンラインインタラクションなしで収集されたデータを使用してポリシーを最適化することを目的としている。
モデルベースのアプローチは、モデルを使用したデータ生成によるオフラインデータの制限を軽減する能力のため、オフラインRLの課題に対処する上で特に魅力的である。
従来の研究では、ポリシー最適化中にモデルやQ-関数に保守性を導入することで、オフラインRLにおける分布のドリフト問題を効果的に軽減できることが示されている。
しかし、報酬推定における保守主義の影響に関する調査はまだ欠落している。
本稿では,モデルベースオフラインRLアルゴリズムである,モデルベースオフラインポリシー最適化(CROP)の保守的リワードを提案し,モデルトレーニングにおける報酬を保守的に推定する。
保守的な報奨推定を実現するため、CROPは同時にランダムな動作の推定誤差と報酬を最小化する。
理論的分析は、この保守的な報酬メカニズムが保守的な政策評価をもたらし、分布のドリフトを緩和することを示している。
D4RLベンチマークの実験では、CROPのパフォーマンスは最先端のベースラインに匹敵することを示した。
特にCROPは、オフラインとオンラインのRL間の革新的な接続を確立し、オフラインのRL問題は、保守的な報酬でトレーニングされた経験的マルコフ決定プロセスにオンラインのRL技術を採用することで対処できる、と強調している。
ソースコードはhttps://github.com/G0K0URURI/CROP.gitで入手できる。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Behavior Proximal Policy Optimization [14.701955559885615]
オフライン強化学習(英語: offline reinforcement learning, RL)は、既存の非政治アクター批判的手法が不十分な課題である。
オンラインのオンライン政治アルゴリズムは、自然にオフラインのRLを解くことができる。
本稿では,制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
論文 参考訳(メタデータ) (2023-02-22T11:49:12Z) - Offline RL Policies Should be Trained to be Adaptive [89.8580376798065]
ベイズ的意味において、オフラインRLで最適に振る舞うには暗黙のPOMDPを解く必要があることを示す。
結果として、オフラインRLの最適ポリシーは、現在の状態だけでなく、評価中にこれまで見られたすべての遷移に依存して適応されなければならない。
本稿では、この最適適応ポリシーを近似するモデルフリーアルゴリズムを提案し、オフラインRLベンチマークにおける適応ポリシーの学習の有効性を実証する。
論文 参考訳(メタデータ) (2022-07-05T17:58:33Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Offline Reinforcement Learning with Reverse Model-based Imagination [25.376888160137973]
オフライン強化学習(オフラインRL)では、学習ポリシーと与えられたデータセットの分散シフトを扱うことが主な課題である。
最近のオフラインRL法は、高信頼領域での学習を促進するために保守主義バイアスを導入しようとしている。
我々は、Reverse Offline Model-based Imagination (ROMI)と呼ばれる新しいモデルベースオフラインRLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-01T03:13:22Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。