論文の概要: Confidence-Conditioned Value Functions for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2212.04607v2
- Date: Mon, 30 Oct 2023 04:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:20:59.021623
- Title: Confidence-Conditioned Value Functions for Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のための信頼度決定値関数
- Authors: Joey Hong and Aviral Kumar and Sergey Levine
- Abstract要約: 本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
- 参考スコア(独自算出の注目度): 86.59173545987984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) promises the ability to learn effective
policies solely using existing, static datasets, without any costly online
interaction. To do so, offline RL methods must handle distributional shift
between the dataset and the learned policy. The most common approach is to
learn conservative, or lower-bound, value functions, which underestimate the
return of out-of-distribution (OOD) actions. However, such methods exhibit one
notable drawback: policies optimized on such value functions can only behave
according to a fixed, possibly suboptimal, degree of conservatism. However,
this can be alleviated if we instead are able to learn policies for varying
degrees of conservatism at training time and devise a method to dynamically
choose one of them during evaluation. To do so, in this work, we propose
learning value functions that additionally condition on the degree of
conservatism, which we dub confidence-conditioned value functions. We derive a
new form of a Bellman backup that simultaneously learns Q-values for any degree
of confidence with high probability. By conditioning on confidence, our value
functions enable adaptive strategies during online evaluation by controlling
for confidence level using the history of observations thus far. This approach
can be implemented in practice by conditioning the Q-function from existing
conservative algorithms on the confidence.We theoretically show that our
learned value functions produce conservative estimates of the true value at any
desired confidence. Finally, we empirically show that our algorithm outperforms
existing conservative offline RL algorithms on multiple discrete control
domains.
- Abstract(参考訳): オフライン強化学習(RL)は、既存の静的データセットのみを使用して効果的なポリシを学ぶことができる。
そのため、オフラインのRLメソッドはデータセットと学習ポリシーの間の分散シフトを処理しなければならない。
最も一般的なアプローチは、アウト・オブ・ディストリビューション(ood)アクションのリターンを過小評価する、保守的、あるいは低いバウンドの値関数を学ぶことである。
そのような価値関数に最適化されたポリシーは、固定された、おそらくは準最適である保守主義の程度に従ってのみ振る舞うことができる。
しかし、トレーニング時に様々なレベルの保守主義のポリシーを学習し、評価中にそれらの1つを動的に選択する方法を考案できれば、これは軽減できる。
そこで本研究では,信頼性条件付き値関数を復号化して,保守性の度合いを付加した学習価値関数を提案する。
我々はベルマンバックアップの新しい形式を導出し、高い確率で任意の信頼度に対するQ値を同時に学習する。
信頼度を条件づけることで,これまでの観察履歴を用いて信頼度レベルを制御し,オンライン評価における適応的戦略を実現する。
提案手法は,既存の保守的アルゴリズムからのQ-関数を信頼度に基づいて条件付けすることで実現可能であり,理論的には,学習値関数が任意の信頼度で真値の保守的推定を生成することを示す。
最後に,本アルゴリズムが複数の離散制御領域において既存の保守的オフラインrlアルゴリズムよりも優れていることを実証的に示す。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Compositional Conservatism: A Transductive Approach in Offline Reinforcement Learning [38.48360240082561]
オフライン強化学習のためのCOCOA(Anchor-seeking)を用いたコミュケーショナル・コミュケータリズムを提案する。
我々は4つの最先端のオフラインRLアルゴリズムにCOCOAを適用し、それらをD4RLベンチマークで評価する。
論文 参考訳(メタデータ) (2024-04-06T17:02:18Z) - Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:45:51Z) - Conservative State Value Estimation for Offline Reinforcement Learning [36.416504941791224]
保守的状態価値推定(CSVE)は、OOD状態に直接ペナルティを与えることによって、保守的なV関数を学ぶ。
我々は,データセットの周辺状態をサンプリングし,ペナルティ化することにより,批判者が保守的価値推定を行う実用的なアクタ批判アルゴリズムを開発した。
我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。
論文 参考訳(メタデータ) (2023-02-14T08:13:55Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。