論文の概要: A Unifying View of Coverage in Linear Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2601.19030v1
- Date: Mon, 26 Jan 2026 23:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.095176
- Title: A Unifying View of Coverage in Linear Off-Policy Evaluation
- Title(参考訳): 線形オフポリティ評価におけるカバーの統一的視点
- Authors: Philip Amortila, Audrey Huang, Akshay Krishnamurthy, Nan Jiang,
- Abstract要約: この設定のための標準アルゴリズム LSTDQ の新たな有限サンプル解析を提供する。
インストゥルメンタル・ヴァリタブル・ビューにインスパイアされた我々は、新しいカバレッジパラメータ、特徴力学のカバレッジに依存するエラー境界を開発する。
- 参考スコア(独自算出の注目度): 36.79977028763131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) is a fundamental task in reinforcement learning (RL). In the classic setting of linear OPE, finite-sample guarantees often take the form $$ \textrm{Evaluation error} \le \textrm{poly}(C^π, d, 1/n,\log(1/δ)), $$ where $d$ is the dimension of the features and $C^π$ is a coverage parameter that characterizes the degree to which the visited features lie in the span of the data distribution. While such guarantees are well-understood for several popular algorithms under stronger assumptions (e.g. Bellman completeness), the understanding is lacking and fragmented in the minimal setting where only the target value function is linearly realizable in the features. Despite recent interest in tight characterizations of the statistical rate in this setting, the right notion of coverage remains unclear, and candidate definitions from prior analyses have undesirable properties and are starkly disconnected from more standard definitions in the literature. We provide a novel finite-sample analysis of a canonical algorithm for this setting, LSTDQ. Inspired by an instrumental-variable view, we develop error bounds that depend on a novel coverage parameter, the feature-dynamics coverage, which can be interpreted as linear coverage in an induced dynamical system for feature evolution. With further assumptions -- such as Bellman-completeness -- our definition successfully recovers the coverage parameters specialized to those settings, finally yielding a unified understanding for coverage in linear OPE.
- Abstract(参考訳): オフ政治評価(OPE)は強化学習(RL)の基本課題である。
線形 OPE の古典的な設定では、有限サンプル保証は $$$ \textrm{Evaluation error} \le \textrm{poly}(C^π, d, 1/n,\log(1/δ)), $$ where $d$ is the dimension of the features and $C^π$ is a coverage parameter that the degree of the area of the data distribution。
このような保証は、より強い仮定(例えばベルマン完全性)の下でいくつかの一般的なアルゴリズムに対してよく理解されているが、その理解は、目的値関数のみが特徴として線形に実現可能な最小設定において欠如し、断片化されている。
このセッティングにおける統計率の厳密な評価に対する近年の関心にもかかわらず、カバレッジの正しい概念はいまだ不明であり、先行分析からの候補定義は望ましくない性質を持ち、文学におけるより標準的な定義から著しく切り離されている。
この設定のための標準アルゴリズム LSTDQ の新たな有限サンプル解析を提供する。
インストゥルメンタル・ヴァリタブル・ビューにインスパイアされた我々は、新しいカバレッジパラメータである特徴力学のカバレッジに依存するエラー境界を開発し、特徴進化のための誘導力学系において線形カバレッジと解釈できる。
ベルマン完全性(Bellman-completeness)のようなさらなる仮定によって、定義はそれらの設定に特有のカバレッジパラメータを回復し、最終的に線形OPEにおけるカバレッジに対する統一的な理解をもたらす。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - A Sharp Characterization of Linear Estimators for Offline Policy
Evaluation [33.37672297925897]
オフライン政策評価は 強化学習の基本的な統計問題です
古典的手法に必要で十分である単純な制御理論と線形代数的条件を同定する。
この結果から, オフライン政策評価のための線形推定器の挙動の全体像が得られた。
論文 参考訳(メタデータ) (2022-03-08T17:52:57Z) - Pessimistic Model-based Offline RL: PAC Bounds and Posterior Sampling
under Partial Coverage [33.766012922307084]
一般関数近似を用いたモデルに基づくオフライン強化学習について検討する。
本稿では、一般関数クラスを活用し、ペシミズムを符号化するために制約を用いる制約付きポリシー最適化(CPPO)というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。