論文の概要: Confidence-Conditioned Value Functions for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2212.04607v1
- Date: Thu, 8 Dec 2022 23:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:29:08.188073
- Title: Confidence-Conditioned Value Functions for Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のための信頼度決定値関数
- Authors: Joey Hong and Aviral Kumar and Sergey Levine
- Abstract要約: 本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
- 参考スコア(独自算出の注目度): 97.14447724811843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) promises the ability to learn effective
policies solely using existing, static datasets, without any costly online
interaction. To do so, offline RL methods must handle distributional shift
between the dataset and the learned policy. The most common approach is to
learn conservative, or lower-bound, value functions, which underestimate the
return of out-of-distribution (OOD) actions. However, such methods exhibit one
notable drawback: policies optimized on such value functions can only behave
according to a fixed, possibly suboptimal, degree of conservatism. However,
this can be alleviated if we instead are able to learn policies for varying
degrees of conservatism at training time and devise a method to dynamically
choose one of them during evaluation. To do so, in this work, we propose
learning value functions that additionally condition on the degree of
conservatism, which we dub confidence-conditioned value functions. We derive a
new form of a Bellman backup that simultaneously learns Q-values for any degree
of confidence with high probability. By conditioning on confidence, our value
functions enable adaptive strategies during online evaluation by controlling
for confidence level using the history of observations thus far. This approach
can be implemented in practice by conditioning the Q-function from existing
conservative algorithms on the confidence. We theoretically show that our
learned value functions produce conservative estimates of the true value at any
desired confidence. Finally, we empirically show that our algorithm outperforms
existing conservative offline RL algorithms on multiple discrete control
domains.
- Abstract(参考訳): オフライン強化学習(RL)は、既存の静的データセットのみを使用して効果的なポリシを学ぶことができる。
そのため、オフラインのRLメソッドはデータセットと学習ポリシーの間の分散シフトを処理しなければならない。
最も一般的なアプローチは、アウト・オブ・ディストリビューション(ood)アクションのリターンを過小評価する、保守的、あるいは低いバウンドの値関数を学ぶことである。
そのような価値関数に最適化されたポリシーは、固定された、おそらくは準最適である保守主義の程度に従ってのみ振る舞うことができる。
しかし、トレーニング時に様々なレベルの保守主義のポリシーを学習し、評価中にそれらの1つを動的に選択する方法を考案できれば、これは軽減できる。
そこで本研究では,信頼性条件付き値関数を復号化して,保守性の度合いを付加した学習価値関数を提案する。
我々はベルマンバックアップの新しい形式を導出し、高い確率で任意の信頼度に対するQ値を同時に学習する。
信頼度を条件づけることで,これまでの観察履歴を用いて信頼度レベルを制御し,オンライン評価における適応的戦略を実現する。
このアプローチは、既存の保守的アルゴリズムからのQ-関数を信頼度に基づいて条件付けることで実現することができる。
理論上は、我々の学習値関数は、任意の所望の信頼度で真の値の保守的な推定を生成する。
最後に,本アルゴリズムが複数の離散制御領域において既存の保守的オフラインrlアルゴリズムよりも優れていることを実証的に示す。
関連論文リスト
- Conservative State Value Estimation for Offline Reinforcement Learning [36.416504941791224]
保守的状態価値推定(CSVE)は、OOD状態に直接ペナルティを与えることによって、保守的なV関数を学ぶ。
我々は,データセットの周辺状態をサンプリングし,ペナルティ化することにより,批判者が保守的価値推定を行う実用的なアクタ批判アルゴリズムを開発した。
我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。
論文 参考訳(メタデータ) (2023-02-14T08:13:55Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Reducing Conservativeness Oriented Offline Reinforcement Learning [29.895142928565228]
オフライン強化学習では、ポリシーはデータの固定コレクションで累積報酬を最大化する。
保守性指向強化学習を減らす方法を提案する。
提案手法は,提供されたデータセットの歪分布に対処し,期待値関数に近い値関数を導出することができる。
論文 参考訳(メタデータ) (2021-02-27T01:21:01Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。