論文の概要: Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity
- arxiv url: http://arxiv.org/abs/2208.05767v1
- Date: Thu, 11 Aug 2022 11:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 12:53:58.911379
- Title: Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity
- Title(参考訳): 分布にロバストなモデルに基づくオフライン強化学習
- Authors: Laixi Shi and Yuejie Chi
- Abstract要約: オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
分布的ロバストな値と不確実性に直面した悲観主義の原理を組み合わせたモデルに基づくアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 36.59336682354851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper concerns the central issues of model robustness and sample
efficiency in offline reinforcement learning (RL), which aims to learn to
perform decision making from history data without active exploration. Due to
uncertainties and variabilities of the environment, it is critical to learn a
robust policy -- with as few samples as possible -- that performs well even
when the deployed environment deviates from the nominal one used to collect the
history dataset. We consider a distributionally robust formulation of offline
RL, focusing on a tabular non-stationary finite-horizon robust Markov decision
process with an uncertainty set specified by the Kullback-Leibler divergence.
To combat with sample scarcity, a model-based algorithm that combines
distributionally robust value iteration with the principle of pessimism in the
face of uncertainty is proposed, by penalizing the robust value estimates with
a carefully designed data-driven penalty term. Under a mild and tailored
assumption of the history dataset that measures distribution shift without
requiring full coverage of the state-action space, we establish the
finite-sample complexity of the proposed algorithm, and further show it is
almost unimprovable in light of a nearly-matching information-theoretic lower
bound up to a polynomial factor of the horizon length. To the best our
knowledge, this provides the first provably near-optimal robust offline RL
algorithm that learns under model uncertainty and partial coverage.
- Abstract(参考訳): 本稿では,オフライン強化学習(RL)におけるモデルロバストネスとサンプル効率の中心的課題について考察する。
環境の不確実性と不安定性のため、デプロイされた環境が履歴データセットの収集に使用される名目上のものから逸脱した場合でも、可能な限り少数のサンプルで堅牢なポリシを学ぶことが重要です。
オフラインRLの分布的ロバストな定式化について考察し、Kulback-Leiblerの発散によって指定された不確実性を持つ表型非定常有限水平ロバストマルコフ決定過程に着目した。
分散的ロバストな値反復と不確実性に直面した悲観主義の原理を組み合わさったモデルベースアルゴリズムにおいて,ロバストな値推定を慎重に設計したデータ駆動型ペナルティ項でペナルティ化する手法を提案する。
状態動作空間の完全なカバレッジを必要とせずに分布シフトを測定するヒストリデータセットの軽度かつ調整された仮定の下で,提案アルゴリズムの有限サンプル複雑性を確立し,さらに,ホライズン長の多項式係数までほぼ一致する情報理論下降値の場合には,ほぼ改善不可能であることを示す。
我々の知る限り、モデルの不確実性と部分的カバレッジの下で学習する、証明可能なほぼ最適のオフラインRLアルゴリズムを提供する。
関連論文リスト
- Robust Offline Reinforcement Learning for Non-Markovian Decision Processes [48.9399496805422]
本研究では,ロバストな非マルコフRLの学習問題について検討する。
本研究では,不確実性セットの異なるタイプ下でのロバストな値に対して,新しいデータセット蒸留と低信頼境界(LCB)設計を導入する。
さらに、オフラインの低ランク非マルコフ決定プロセスに適した新しいI型集中係数を導入することにより、我々のアルゴリズムが$epsilon$-optimal robust policyを見つけることができることを証明した。
論文 参考訳(メタデータ) (2024-11-12T03:22:56Z) - Distributionally robust risk evaluation with an isotonic constraint [20.74502777102024]
分布的に堅牢な学習は、不確実な分布の集合内で最悪のケースの統計性能を制御することを目的としている。
本稿では,未知のターゲット分布が推定値と異なる方法に関する事前情報を組み込んだDRLの形状制約手法を提案する。
合成データと実データの両方に関する実証研究は、提案した形状制約手法の精度の向上を実証している。
論文 参考訳(メタデータ) (2024-07-09T13:56:34Z) - Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。