論文の概要: Budgeting Counterfactual for Offline RL
- arxiv url: http://arxiv.org/abs/2307.06328v1
- Date: Wed, 12 Jul 2023 17:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 12:13:38.075910
- Title: Budgeting Counterfactual for Offline RL
- Title(参考訳): オフラインrlの予算削減
- Authors: Yao Liu, Pratik Chaudhari, Rasool Fakoor
- Abstract要約: 本稿では,トレーニング中のアウト・オブ・ディストリビューション・アクションの量を明示的に制限する手法を提案する。
そこで本研究では,D4RL ベンチマークのタスクにおける最先端のオフライン RL 手法よりも,本手法の全体的な性能がよいことを示す。
- 参考スコア(独自算出の注目度): 21.706152587455264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main challenge of offline reinforcement learning, where data is limited,
arises from a sequence of counterfactual reasoning dilemmas within the realm of
potential actions: What if we were to choose a different course of action?
These circumstances frequently give rise to extrapolation errors, which tend to
accumulate exponentially with the problem horizon. Hence, it becomes crucial to
acknowledge that not all decision steps are equally important to the final
outcome, and to budget the number of counterfactual decisions a policy make in
order to control the extrapolation. Contrary to existing approaches that use
regularization on either the policy or value function, we propose an approach
to explicitly bound the amount of out-of-distribution actions during training.
Specifically, our method utilizes dynamic programming to decide where to
extrapolate and where not to, with an upper bound on the decisions different
from behavior policy. It balances between the potential for improvement from
taking out-of-distribution actions and the risk of making errors due to
extrapolation. Theoretically, we justify our method by the constrained
optimality of the fixed point solution to our $Q$ updating rules. Empirically,
we show that the overall performance of our method is better than the
state-of-the-art offline RL methods on tasks in the widely-used D4RL
benchmarks.
- Abstract(参考訳): データの制限があるオフライン強化学習の主な課題は、潜在的なアクションの領域における反事実的推論ジレンマの連続から生じる。
これらの状況はしばしば外挿誤差を引き起こし、問題地平線に指数関数的に蓄積する傾向がある。
したがって、すべての決定ステップが最終結果に等しく重要であるわけではなく、政策が外挿を制御するために行う反実的な決定の数を予算化することが重要である。
方針と価値関数の両方で正規化を使用する既存のアプローチとは対照的に、トレーニング中に分散アクションの量を明示的に制限するアプローチを提案する。
具体的には,動的プログラミングを用いて,行動方針とは異なる判断の上限を上限として,外挿すべき場所とすべきでない場所を決定する。
アウト・オブ・ディストリビューション行動による改善の可能性と、外挿によるエラーのリスクのバランスをとる。
理論的には、固定点解の制約された最適性により、我々のQ$更新規則を正当化する。
実験により,我々の手法の全体的な性能は,広く使用されているD4RLベンチマークのタスクにおける最先端のオフラインRL法よりも優れていることを示す。
関連論文リスト
- Bayesian Inverse Transition Learning for Offline Settings [30.10905852013852]
強化学習は、医療や教育などの領域におけるシーケンシャルな意思決定に一般的に用いられる。
我々は、遷移力学の後方分布を確実に学習するために、デシダラタを捕捉する新しい制約ベースのアプローチを提案する。
その結果、制約を用いることで、高いパフォーマンスのポリシーを学習し、異なるデータセットに対するポリシーのばらつきを著しく低減することを示した。
論文 参考訳(メタデータ) (2023-08-09T17:08:29Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Selective Uncertainty Propagation in Offline RL [28.324479520451195]
我々は、有限水平オフライン強化学習(RL)の設定を考察し、動的プログラミング(DP)アルゴリズムにおいて、任意のステップhでポリシーを学習することの難しさを動機としている。
本研究では, 分散シフトの難易度に適応する信頼区間構築のための, 選択的不確実性伝播というフレキシブルで汎用的な手法を開発した。
論文 参考訳(メタデータ) (2023-02-01T07:31:25Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。