論文の概要: Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage
- arxiv url: http://arxiv.org/abs/2310.18434v1
- Date: Fri, 27 Oct 2023 19:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:48:19.502748
- Title: Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage
- Title(参考訳): 分散的ロバストな学習とオフラインrlの橋渡し:分散シフトと部分的データカバレッジを緩和するアプローチ
- Authors: Kishan Panaganti, Zaiyan Xu, Dileep Kalathil, Mohammad Ghavamzadeh
- Abstract要約: オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 32.578787778183546
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The goal of an offline reinforcement learning (RL) algorithm is to learn
optimal polices using historical (offline) data, without access to the
environment for online exploration. One of the main challenges in offline RL is
the distribution shift which refers to the difference between the state-action
visitation distribution of the data generating policy and the learning policy.
Many recent works have used the idea of pessimism for developing offline RL
algorithms and characterizing their sample complexity under a relatively weak
assumption of single policy concentrability. Different from the offline RL
literature, the area of distributionally robust learning (DRL) offers a
principled framework that uses a minimax formulation to tackle model mismatch
between training and testing environments. In this work, we aim to bridge these
two areas by showing that the DRL approach can be used to tackle the
distributional shift problem in offline RL. In particular, we propose two
offline RL algorithms using the DRL framework, for the tabular and linear
function approximation settings, and characterize their sample complexity under
the single policy concentrability assumption. We also demonstrate the superior
performance our proposed algorithm through simulation experiments.
- Abstract(参考訳): オフライン強化学習(RL)アルゴリズムの目的は、オンライン探索のための環境にアクセスすることなく、過去の(オフライン)データを使って最適な警察を学習することである。
オフラインRLの主な課題の1つは、データ生成ポリシーと学習ポリシーの状態-行動訪問分布の違いを反映した分散シフトである。
近年の多くの研究は、ペシミズムという概念を用いて、オフラインのRLアルゴリズムを開発し、サンプルの複雑さを単一のポリシー集中性という比較的弱い仮定の下で特徴づけている。
オフラインのrl文献とは異なり、distributionally robust learning(drl)の領域は、トレーニングとテスト環境のモデルミスマッチに取り組むためにminimax形式を使用する原則付きフレームワークを提供する。
本研究では,この2つの領域を橋渡しし,DRL手法がオフラインRLにおける分布シフト問題に対処できることを示す。
特に,DRLフレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
また,シミュレーション実験により提案アルゴリズムの優れた性能を示す。
関連論文リスト
- Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。