論文の概要: A Sharp Characterization of Linear Estimators for Offline Policy
Evaluation
- arxiv url: http://arxiv.org/abs/2203.04236v1
- Date: Tue, 8 Mar 2022 17:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 13:52:45.110762
- Title: A Sharp Characterization of Linear Estimators for Offline Policy
Evaluation
- Title(参考訳): オフライン政策評価のための線形推定器のシャープ特性
- Authors: Juan C. Perdomo, Akshay Krishnamurthy, Peter Bartlett, Sham Kakade
- Abstract要約: オフライン政策評価は 強化学習の基本的な統計問題です
古典的手法に必要で十分である単純な制御理論と線形代数的条件を同定する。
この結果から, オフライン政策評価のための線形推定器の挙動の全体像が得られた。
- 参考スコア(独自算出の注目度): 33.37672297925897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline policy evaluation is a fundamental statistical problem in
reinforcement learning that involves estimating the value function of some
decision-making policy given data collected by a potentially different policy.
In order to tackle problems with complex, high-dimensional observations, there
has been significant interest from theoreticians and practitioners alike in
understanding the possibility of function approximation in reinforcement
learning. Despite significant study, a sharp characterization of when we might
expect offline policy evaluation to be tractable, even in the simplest setting
of linear function approximation, has so far remained elusive, with a
surprising number of strong negative results recently appearing in the
literature.
In this work, we identify simple control-theoretic and linear-algebraic
conditions that are necessary and sufficient for classical methods, in
particular Fitted Q-iteration (FQI) and least squares temporal difference
learning (LSTD), to succeed at offline policy evaluation. Using this
characterization, we establish a precise hierarchy of regimes under which these
estimators succeed. We prove that LSTD works under strictly weaker conditions
than FQI. Furthermore, we establish that if a problem is not solvable via LSTD,
then it cannot be solved by a broad class of linear estimators, even in the
limit of infinite data. Taken together, our results provide a complete picture
of the behavior of linear estimators for offline policy evaluation (OPE), unify
previously disparate analyses of canonical algorithms, and provide
significantly sharper notions of the underlying statistical complexity of OPE.
- Abstract(参考訳): オフライン政策評価は強化学習における基本的な統計問題であり、潜在的に異なる方針によって収集されたデータから意思決定方針の価値関数を推定することを含む。
複雑で高次元の観察で問題に取り組むために、強化学習における関数近似の可能性を理解することに、理論家や実践家からも大きな関心が寄せられている。
重要な研究にもかかわらず、線形関数近似の最も単純な設定であっても、オフライン政策評価がいつ取り扱えると期待できるかという鋭い特徴は、これまでも解明され続けており、近年では驚くほど多くの否定的な結果が出回っている。
本研究では,古典的手法,特にq-iteration (fqi) と最小二乗時間差学習 (lstd) がオフライン政策評価に成功するために必要な,単純な制御理論および線形代数的条件を明らかにする。
この特徴を用いて,これらの推定者が成功する体制の正確な階層を確立する。
我々はLSTDがFQIよりも厳密に弱い条件下で機能することを証明した。
さらに, lstd で解くことができない場合, 無限データの極限であっても, 線形推定器の幅広いクラスでは解くことができないことを確かめた。
そこで本研究では,オフライン政策評価 (ope) における線形推定器の挙動の全体像と,従来と異なる正準アルゴリズムの解析を統一し,その基礎となる統計複雑性のより鋭い概念を提供する。
関連論文リスト
- High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。