論文の概要: Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity
- arxiv url: http://arxiv.org/abs/2208.05767v4
- Date: Thu, 28 Dec 2023 20:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 03:21:59.287420
- Title: Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity
- Title(参考訳): 分布にロバストなモデルに基づくオフライン強化学習
- Authors: Laixi Shi and Yuejie Chi
- Abstract要約: オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
- 参考スコア(独自算出の注目度): 39.886149789339335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper concerns the central issues of model robustness and sample
efficiency in offline reinforcement learning (RL), which aims to learn to
perform decision making from history data without active exploration. Due to
uncertainties and variabilities of the environment, it is critical to learn a
robust policy -- with as few samples as possible -- that performs well even
when the deployed environment deviates from the nominal one used to collect the
history dataset. We consider a distributionally robust formulation of offline
RL, focusing on tabular robust Markov decision processes with an uncertainty
set specified by the Kullback-Leibler divergence in both finite-horizon and
infinite-horizon settings. To combat with sample scarcity, a model-based
algorithm that combines distributionally robust value iteration with the
principle of pessimism in the face of uncertainty is proposed, by penalizing
the robust value estimates with a carefully designed data-driven penalty term.
Under a mild and tailored assumption of the history dataset that measures
distribution shift without requiring full coverage of the state-action space,
we establish the finite-sample complexity of the proposed algorithms. We
further develop an information-theoretic lower bound, which suggests that
learning RMDPs is at least as hard as the standard MDPs when the uncertainty
level is sufficient small, and corroborates the tightness of our upper bound up
to polynomial factors of the (effective) horizon length for a range of
uncertainty levels. To the best our knowledge, this provides the first provably
near-optimal robust offline RL algorithm that learns under model uncertainty
and partial coverage.
- Abstract(参考訳): 本稿では,オフライン強化学習(RL)におけるモデルロバストネスとサンプル効率の中心的課題について考察する。
環境の不確実性と不安定性のため、デプロイされた環境が履歴データセットの収集に使用される名目上のものから逸脱した場合でも、可能な限り少数のサンプルで堅牢なポリシを学ぶことが重要です。
有限水平および無限水平の両方の設定において、Kulback-Leiblerの発散によって指定された不確実性セットを持つグラフ状ロバストマルコフ決定過程に着目し、分布的にロバストなオフラインRLの定式化を考える。
分散的ロバストな値反復と不確実性に直面した悲観主義の原理を組み合わさったモデルベースアルゴリズムにおいて,ロバストな値推定を慎重に設計したデータ駆動型ペナルティ項でペナルティ化する手法を提案する。
状態動作空間を完全にカバーすることなく分布シフトを測定するヒストリーデータセットの軽度かつ調整された仮定の下で,提案するアルゴリズムの有限サンプル複雑性を確立する。
さらに,不確実性レベルが十分小さい場合,RMDP の学習は標準 MDP と同程度に困難であることが示唆される情報理論の下界を構築し,不確実性レベルの範囲において,(有効) 地平面長の多項式係数まで上界の厳密さを相関させる。
我々の知る限り、モデルの不確実性と部分的カバレッジの下で学習する、証明可能なほぼ最適のオフラインRLアルゴリズムを提供する。
関連論文リスト
- Robust Offline Reinforcement Learning for Non-Markovian Decision Processes [48.9399496805422]
本研究では,ロバストな非マルコフRLの学習問題について検討する。
本研究では,不確実性セットの異なるタイプ下でのロバストな値に対して,新しいデータセット蒸留と低信頼境界(LCB)設計を導入する。
さらに、オフラインの低ランク非マルコフ決定プロセスに適した新しいI型集中係数を導入することにより、我々のアルゴリズムが$epsilon$-optimal robust policyを見つけることができることを証明した。
論文 参考訳(メタデータ) (2024-11-12T03:22:56Z) - Distributionally robust risk evaluation with an isotonic constraint [20.74502777102024]
分布的に堅牢な学習は、不確実な分布の集合内で最悪のケースの統計性能を制御することを目的としている。
本稿では,未知のターゲット分布が推定値と異なる方法に関する事前情報を組み込んだDRLの形状制約手法を提案する。
合成データと実データの両方に関する実証研究は、提案した形状制約手法の精度の向上を実証している。
論文 参考訳(メタデータ) (2024-07-09T13:56:34Z) - Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。