論文の概要: Matrix Estimation for Offline Reinforcement Learning with Low-Rank
Structure
- arxiv url: http://arxiv.org/abs/2305.15621v1
- Date: Wed, 24 May 2023 23:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 18:12:51.313284
- Title: Matrix Estimation for Offline Reinforcement Learning with Low-Rank
Structure
- Title(参考訳): 低ランク構造を用いたオフライン強化学習の行列推定
- Authors: Xumei Xi, Christina Lee Yu, Yudong Chen
- Abstract要約: エージェントが環境と相互作用せず、行動ポリシーを用いて収集されたオフラインデータに頼らなければならないオフライン強化学習(RL)について考察する。
事前の作業は、評価対象方針が行動方針によってカバーされている場合に、政策評価を保証する。
そこで本稿では,低ランク構造を利用したオフラインポリシ評価アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.968373699696455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider offline Reinforcement Learning (RL), where the agent does not
interact with the environment and must rely on offline data collected using a
behavior policy. Previous works provide policy evaluation guarantees when the
target policy to be evaluated is covered by the behavior policy, that is,
state-action pairs visited by the target policy must also be visited by the
behavior policy. We show that when the MDP has a latent low-rank structure,
this coverage condition can be relaxed. Building on the connection to weighted
matrix completion with non-uniform observations, we propose an offline policy
evaluation algorithm that leverages the low-rank structure to estimate the
values of uncovered state-action pairs. Our algorithm does not require a known
feature representation, and our finite-sample error bound involves a novel
discrepancy measure quantifying the discrepancy between the behavior and target
policies in the spectral space. We provide concrete examples where our
algorithm achieves accurate estimation while existing coverage conditions are
not satisfied. Building on the above evaluation algorithm, we further design an
offline policy optimization algorithm and provide non-asymptotic performance
guarantees.
- Abstract(参考訳): 我々は,エージェントが環境と相互作用せず,行動ポリシーを用いて収集したオフラインデータに依存するオフライン強化学習(rl)を考える。
従来の研究は、対象政策が行動政策によってカバーされている場合、すなわち、対象政策が訪れた状態-行動ペアも行動政策によって訪問する必要がある場合、政策評価を保証する。
MDPが潜在低ランク構造を持つ場合、このカバレッジ条件を緩和できることを示す。
重み付き行列補完と非一様観測との接続性に基づいて、低ランク構造を利用したオフラインポリシー評価アルゴリズムを提案し、未発見の状態-作用対の値を推定する。
我々のアルゴリズムは、既知の特徴表現を必要としないし、我々の有限サンプル誤差境界は、スペクトル空間における行動とターゲットポリシーの相違を定量化する新しい相違測度を含む。
既存のカバレッジ条件が満たされていない場合に,アルゴリズムが正確な推定を行う具体的な例を提供する。
上記の評価アルゴリズムに基づき、オフラインポリシー最適化アルゴリズムを更に設計し、非漸近的な性能保証を提供する。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - A Sharp Characterization of Linear Estimators for Offline Policy
Evaluation [33.37672297925897]
オフライン政策評価は 強化学習の基本的な統計問題です
古典的手法に必要で十分である単純な制御理論と線形代数的条件を同定する。
この結果から, オフライン政策評価のための線形推定器の挙動の全体像が得られた。
論文 参考訳(メタデータ) (2022-03-08T17:52:57Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。