Fugu-MT 論文翻訳(概要): Confidence-Conditioned Value Functions for Offline Reinforcement Learning

論文の概要: Confidence-Conditioned Value Functions for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2212.04607v1
Date: Thu, 8 Dec 2022 23:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-12 14:29:08.188073
Title: Confidence-Conditioned Value Functions for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のための信頼度決定値関数
Authors: Joey Hong and Aviral Kumar and Sergey Levine
Abstract要約: 本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
参考スコア（独自算出の注目度）: 97.14447724811843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning (RL) promises the ability to learn effective policies solely using existing, static datasets, without any costly online interaction. To do so, offline RL methods must handle distributional shift between the dataset and the learned policy. The most common approach is to learn conservative, or lower-bound, value functions, which underestimate the return of out-of-distribution (OOD) actions. However, such methods exhibit one notable drawback: policies optimized on such value functions can only behave according to a fixed, possibly suboptimal, degree of conservatism. However, this can be alleviated if we instead are able to learn policies for varying degrees of conservatism at training time and devise a method to dynamically choose one of them during evaluation. To do so, in this work, we propose learning value functions that additionally condition on the degree of conservatism, which we dub confidence-conditioned value functions. We derive a new form of a Bellman backup that simultaneously learns Q-values for any degree of confidence with high probability. By conditioning on confidence, our value functions enable adaptive strategies during online evaluation by controlling for confidence level using the history of observations thus far. This approach can be implemented in practice by conditioning the Q-function from existing conservative algorithms on the confidence. We theoretically show that our learned value functions produce conservative estimates of the true value at any desired confidence. Finally, we empirically show that our algorithm outperforms existing conservative offline RL algorithms on multiple discrete control domains.
Abstract（参考訳）: オフライン強化学習(RL)は、既存の静的データセットのみを使用して効果的なポリシを学ぶことができる。そのため、オフラインのRLメソッドはデータセットと学習ポリシーの間の分散シフトを処理しなければならない。最も一般的なアプローチは、アウト・オブ・ディストリビューション(ood)アクションのリターンを過小評価する、保守的、あるいは低いバウンドの値関数を学ぶことである。そのような価値関数に最適化されたポリシーは、固定された、おそらくは準最適である保守主義の程度に従ってのみ振る舞うことができる。しかし、トレーニング時に様々なレベルの保守主義のポリシーを学習し、評価中にそれらの1つを動的に選択する方法を考案できれば、これは軽減できる。そこで本研究では,信頼性条件付き値関数を復号化して,保守性の度合いを付加した学習価値関数を提案する。我々はベルマンバックアップの新しい形式を導出し、高い確率で任意の信頼度に対するQ値を同時に学習する。信頼度を条件づけることで,これまでの観察履歴を用いて信頼度レベルを制御し,オンライン評価における適応的戦略を実現する。このアプローチは、既存の保守的アルゴリズムからのQ-関数を信頼度に基づいて条件付けることで実現することができる。理論上は、我々の学習値関数は、任意の所望の信頼度で真の値の保守的な推定を生成する。最後に,本アルゴリズムが複数の離散制御領域において既存の保守的オフラインrlアルゴリズムよりも優れていることを実証的に示す。

関連論文リスト

Mildly Conservative Regularized Evaluation for Offline Reinforcement Learning [4.657497798824256]
オフライン強化学習は、さらなる環境相互作用を伴わずに、静的データセットから最適なポリシーを学習しようとする。過大評価を防ぐために、値関数は保守的でなければならない。本稿では保守主義と性能のバランスをとる軽度に保守的な正規化評価(MCRE)フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-08T02:48:26Z)
Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-06T22:09:46Z)
Compositional Conservatism: A Transductive Approach in Offline Reinforcement Learning [38.48360240082561]
オフライン強化学習のためのCOCOA(Anchor-seeking)を用いたコミュケーショナル・コミュケータリズムを提案する。我々は4つの最先端のオフラインRLアルゴリズムにCOCOAを適用し、それらをD4RLベンチマークで評価する。
論文参考訳（メタデータ） (2024-04-06T17:02:18Z)
Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文参考訳（メタデータ） (2024-03-07T12:45:51Z)
Conservative State Value Estimation for Offline Reinforcement Learning [36.416504941791224]
保守的状態価値推定(CSVE)は、OOD状態に直接ペナルティを与えることによって、保守的なV関数を学ぶ。我々は,データセットの周辺状態をサンプリングし,ペナルティ化することにより,批判者が保守的価値推定を行う実用的なアクタ批判アルゴリズムを開発した。我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。
論文参考訳（メタデータ） (2023-02-14T08:13:55Z)
Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文参考訳（メタデータ） (2022-06-09T19:44:35Z)
Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文参考訳（メタデータ） (2022-03-24T01:04:17Z)
Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文参考訳（メタデータ） (2021-11-03T08:02:48Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2～5倍高いポリシを学習しています。理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文参考訳（メタデータ） (2020-06-08T17:53:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。