論文の概要: Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity
- arxiv url: http://arxiv.org/abs/2208.05767v1
- Date: Thu, 11 Aug 2022 11:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 12:53:58.911379
- Title: Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity
- Title(参考訳): 分布にロバストなモデルに基づくオフライン強化学習
- Authors: Laixi Shi and Yuejie Chi
- Abstract要約: オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
分布的ロバストな値と不確実性に直面した悲観主義の原理を組み合わせたモデルに基づくアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 36.59336682354851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper concerns the central issues of model robustness and sample
efficiency in offline reinforcement learning (RL), which aims to learn to
perform decision making from history data without active exploration. Due to
uncertainties and variabilities of the environment, it is critical to learn a
robust policy -- with as few samples as possible -- that performs well even
when the deployed environment deviates from the nominal one used to collect the
history dataset. We consider a distributionally robust formulation of offline
RL, focusing on a tabular non-stationary finite-horizon robust Markov decision
process with an uncertainty set specified by the Kullback-Leibler divergence.
To combat with sample scarcity, a model-based algorithm that combines
distributionally robust value iteration with the principle of pessimism in the
face of uncertainty is proposed, by penalizing the robust value estimates with
a carefully designed data-driven penalty term. Under a mild and tailored
assumption of the history dataset that measures distribution shift without
requiring full coverage of the state-action space, we establish the
finite-sample complexity of the proposed algorithm, and further show it is
almost unimprovable in light of a nearly-matching information-theoretic lower
bound up to a polynomial factor of the horizon length. To the best our
knowledge, this provides the first provably near-optimal robust offline RL
algorithm that learns under model uncertainty and partial coverage.
- Abstract(参考訳): 本稿では,オフライン強化学習(RL)におけるモデルロバストネスとサンプル効率の中心的課題について考察する。
環境の不確実性と不安定性のため、デプロイされた環境が履歴データセットの収集に使用される名目上のものから逸脱した場合でも、可能な限り少数のサンプルで堅牢なポリシを学ぶことが重要です。
オフラインRLの分布的ロバストな定式化について考察し、Kulback-Leiblerの発散によって指定された不確実性を持つ表型非定常有限水平ロバストマルコフ決定過程に着目した。
分散的ロバストな値反復と不確実性に直面した悲観主義の原理を組み合わさったモデルベースアルゴリズムにおいて,ロバストな値推定を慎重に設計したデータ駆動型ペナルティ項でペナルティ化する手法を提案する。
状態動作空間の完全なカバレッジを必要とせずに分布シフトを測定するヒストリデータセットの軽度かつ調整された仮定の下で,提案アルゴリズムの有限サンプル複雑性を確立し,さらに,ホライズン長の多項式係数までほぼ一致する情報理論下降値の場合には,ほぼ改善不可能であることを示す。
我々の知る限り、モデルの不確実性と部分的カバレッジの下で学習する、証明可能なほぼ最適のオフラインRLアルゴリズムを提供する。
関連論文リスト
- Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - The Curious Price of Distributional Robustness in Reinforcement Learning
with a Generative Model [63.11179754372823]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Improving Generalization via Uncertainty Driven Perturbations [107.45752065285821]
トレーニングデータポイントの不確実性による摂動について考察する。
損失駆動摂動とは異なり、不確実性誘導摂動は決定境界を越えてはならない。
線形モデルにおいて,UDPがロバスト性マージン決定を達成することが保証されていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:22:08Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。