論文の概要: Model-based Offline Reinforcement Learning with Count-based Conservatism
- arxiv url: http://arxiv.org/abs/2307.11352v1
- Date: Fri, 21 Jul 2023 04:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 13:44:07.254198
- Title: Model-based Offline Reinforcement Learning with Count-based Conservatism
- Title(参考訳): Count-based Conservatismを用いたモデルベースオフライン強化学習
- Authors: Byeongchan Kim, Min-hwan Oh
- Abstract要約: 本稿では, カウントベースの保守性を統合したモデルベースオフライン強化学習法, $textttCount-MORL$を提案する。
モデル推定誤差の定量化には状態-作用対のカウント推定を利用する。
ハッシュコードを実装した$textttCount-MORL$は、既存のオフラインRLアルゴリズムをD4RLベンチマークデータセットで大幅に上回っている。
- 参考スコア(独自算出の注目度): 12.36108042107798
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose a model-based offline reinforcement learning method
that integrates count-based conservatism, named $\texttt{Count-MORL}$. Our
method utilizes the count estimates of state-action pairs to quantify model
estimation error, marking the first algorithm of demonstrating the efficacy of
count-based conservatism in model-based offline deep RL to the best of our
knowledge. For our proposed method, we first show that the estimation error is
inversely proportional to the frequency of state-action pairs. Secondly, we
demonstrate that the learned policy under the count-based conservative model
offers near-optimality performance guarantees. Through extensive numerical
experiments, we validate that $\texttt{Count-MORL}$ with hash code
implementation significantly outperforms existing offline RL algorithms on the
D4RL benchmark datasets. The code is accessible at
$\href{https://github.com/oh-lab/Count-MORL}{https://github.com/oh-lab/Count-MORL}$.
- Abstract(参考訳): 本稿では,計算量に基づく保存性を統合したモデルベースオフライン強化学習手法である$\texttt{count-morl}$を提案する。
本手法は,モデルに基づくオフライン深部RLにおけるカウントベース保存性の有効性を示すアルゴリズムとして,モデル推定誤差の定量化に状態-作用対のカウント推定を利用する。
提案手法では,推定誤差が状態-作用対の周波数に逆比例することを示す。
第2に, 数に基づく保守モデルに基づく学習方針が, ほぼ最適に近い性能を保証することを実証する。
D4RLベンチマークデータセットにおいて,ハッシュコード実装による$\texttt{Count-MORL}$が既存のオフラインRLアルゴリズムよりも大幅に優れていることを検証する。
コードは$\href{https://github.com/oh-lab/Count-MORL}{https://github.com/oh-lab/Count-MORL}$でアクセスできる。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning [14.952800864366512]
保守主義は、正確なオフラインデータと不正確なモデルデータのバランスをとるために、アルゴリズムに組み込まれるべきです。
本稿では、モデル不確実性を推定することなく、milDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。
大規模な実験の結果、DOMAINはD4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-09-16T08:39:28Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Provably Efficient Neural Offline Reinforcement Learning via Perturbed
Rewards [33.88533898709351]
VIPeRは、ランダム化された値関数のアイデアと悲観主義の原理を一致させる。
オフラインデータを複数回摂動することで、暗黙的に悲観性を得る。
ニューラルネットワーク関数近似を用いた一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である。
論文 参考訳(メタデータ) (2023-02-24T17:52:12Z) - Conservative Bayesian Model-Based Value Expansion for Offline Policy
Optimization [41.774837419584735]
オフライン強化学習(英語版) (RL) は、ある行動ポリシーに従って収集された固定されたデータのバッチからパフォーマンスポリシーを学習する問題に対処する。
モデルベースのアプローチは、環境のモデルを学ぶことによって、ログ化されたデータセットからより多くの学習信号を抽出できるため、特に魅力的である。
論文 参考訳(メタデータ) (2022-10-07T20:13:50Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。