論文の概要: Mildly Conservative Regularized Evaluation for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.05960v1
- Date: Fri, 08 Aug 2025 02:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.054513
- Title: Mildly Conservative Regularized Evaluation for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための軽度保守正規化評価
- Authors: Haohui Chen, Zhiyong Chen,
- Abstract要約: オフライン強化学習は、さらなる環境相互作用を伴わずに、静的データセットから最適なポリシーを学習しようとする。
過大評価を防ぐために、値関数は保守的でなければならない。
本稿では保守主義と性能のバランスをとる軽度に保守的な正規化評価(MCRE)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.657497798824256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) seeks to learn optimal policies from static datasets without further environment interaction. A key challenge is the distribution shift between the learned and behavior policies, leading to out-of-distribution (OOD) actions and overestimation. To prevent gross overestimation, the value function must remain conservative; however, excessive conservatism may hinder performance improvement. To address this, we propose the mildly conservative regularized evaluation (MCRE) framework, which balances conservatism and performance by combining temporal difference (TD) error with a behavior cloning term in the Bellman backup. Building on this, we develop the mildly conservative regularized Q-learning (MCRQ) algorithm, which integrates MCRE into an off-policy actor-critic framework. Experiments show that MCRQ outperforms strong baselines and state-of-the-art offline RL algorithms on benchmark datasets.
- Abstract(参考訳): オフライン強化学習(RL)は、環境のさらなる相互作用なしに静的データセットから最適なポリシーを学習することを目指している。
重要な課題は、学習と行動ポリシーの分配シフトであり、アウト・オブ・ディストリビューション(OOD)の行動と過大評価につながる。
過度な過大評価を防ぐため、値関数は保守的でなければならないが、過剰な保守主義は性能改善を妨げる可能性がある。
これを解決するために,時間差(TD)誤差とベルマンバックアップの行動クローン項を組み合わせることで,保守性と性能のバランスをとる,軽度に保守的な正規化評価(MCRE)フレームワークを提案する。
そこで我々は,MCREを非政治的アクター批判フレームワークに統合した,軽度に保守的な正規化Q-ラーニング(MCRQ)アルゴリズムを開発した。
実験により、MCRQはベンチマークデータセット上で強いベースラインと最先端のオフラインRLアルゴリズムより優れていることが示された。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。