論文の概要: SCORE: Spurious COrrelation REduction for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.12468v1
- Date: Sun, 24 Oct 2021 15:34:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 14:08:18.938737
- Title: SCORE: Spurious COrrelation REduction for Offline Reinforcement Learning
- Title(参考訳): SCORE:オフライン強化学習のためのSpurious Correlation Reduction
- Authors: Zhihong Deng, Zuyue Fu, Lingxiao Wang, Zhuoran Yang, Chenjia Bai,
Zhaoran Wang, Jing Jiang
- Abstract要約: オフライン強化学習は、オンラインインタラクションなしで、事前に収集されたデータセットから最適なポリシーを学ぶことを目的としている。
データセットは基礎となるモデルに関する限られた情報しか含まないため、オフラインRLは急激な相関に弱い。
本稿では,不確実なペナルティを政策評価に組み込むことにより,突発的な相関を低減できる実用的で理論的に保証されたアルゴリズムSCOREを提案する。
- 参考スコア(独自算出の注目度): 100.78715211319016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) aims to learn the optimal policy from a
pre-collected dataset without online interactions. Most of the existing studies
focus on distributional shift caused by out-of-distribution actions. However,
even in-distribution actions can raise serious problems. Since the dataset only
contains limited information about the underlying model, offline RL is
vulnerable to spurious correlations, i.e., the agent tends to prefer actions
that by chance lead to high returns, resulting in a highly suboptimal policy.
To address such a challenge, we propose a practical and theoretically
guaranteed algorithm SCORE that reduces spurious correlations by combing an
uncertainty penalty into policy evaluation. We show that this is consistent
with the pessimism principle studied in theory, and the proposed algorithm
converges to the optimal policy with a sublinear rate under mild assumptions.
By conducting extensive experiments on existing benchmarks, we show that SCORE
not only benefits from a solid theory but also obtains strong empirical results
on a variety of tasks.
- Abstract(参考訳): オフライン強化学習(RL)は、オンラインインタラクションを伴わない事前コンパイルデータセットから最適なポリシーを学ぶことを目的としている。
既存の研究のほとんどは、分配外行動によって引き起こされる分布の変化に焦点を当てている。
しかし、分配内行動でさえ深刻な問題を引き起こすことがある。
データセットには基礎となるモデルに関する限られた情報しか含まれていないため、オフラインrlはスプリアス相関に弱い。
このような課題に対処するために,不確実性ペナルティを政策評価に組み込むことで,スプリアス相関を低減できる実用的かつ理論的に保証されたアルゴリズムスコアを提案する。
これは理論で研究された悲観主義の原理と一致しており、提案したアルゴリズムは穏やかな仮定の下で準線形レートで最適ポリシーに収束する。
既存のベンチマークで広範な実験を行うことで、SCOREは固体理論の恩恵を受けるだけでなく、様々なタスクにおいて強い経験結果が得られることを示す。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Distributionally Robust Offline Reinforcement Learning with Linear
Function Approximation [16.128778192359327]
我々は、ソース環境から得られた履歴データを用いてRLエージェントを学習し、摂動環境において良好に動作するように最適化する。
我々は、線形関数次元$d$に応じて、我々のアルゴリズムが$O(sqrtK)$の亜最適性を達成できることを証明した。
論文 参考訳(メタデータ) (2022-09-14T13:17:59Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Offline Reinforcement Learning with Realizability and Single-policy
Concentrability [40.15976281104956]
オフライン強化学習のサンプル効率保証は、しばしば関数クラスとデータカバレッジの両方に強い仮定に依存する。
本稿では,2つの変数をオフラインデータに対してオフライン関数を用いてモデル化する,原始双対MDPに基づく単純なアルゴリズムを解析する。
論文 参考訳(メタデータ) (2022-02-09T18:51:24Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。