論文の概要: The Optimal Approximation Factors in Misspecified Off-Policy Value
Function Estimation
- arxiv url: http://arxiv.org/abs/2307.13332v1
- Date: Tue, 25 Jul 2023 08:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 17:55:57.077688
- Title: The Optimal Approximation Factors in Misspecified Off-Policy Value
Function Estimation
- Title(参考訳): 不特定オフポリティ値関数推定における最適近似係数
- Authors: Philip Amortila, Nan Jiang, Csaba Szepesv\'ari
- Abstract要約: 強化学習における理論的保証は、関数近似の誤特定誤差に関して、乗算的爆破要因を負う。
重み付き$L$-normなど,幅広い設定において近似係数について検討した。
- 参考スコア(独自算出の注目度): 10.815725400534589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theoretical guarantees in reinforcement learning (RL) are known to suffer
multiplicative blow-up factors with respect to the misspecification error of
function approximation. Yet, the nature of such \emph{approximation factors} --
especially their optimal form in a given learning problem -- is poorly
understood. In this paper we study this question in linear off-policy value
function estimation, where many open questions remain. We study the
approximation factor in a broad spectrum of settings, such as with the weighted
$L_2$-norm (where the weighting is the offline state distribution), the
$L_\infty$ norm, the presence vs. absence of state aliasing, and full vs.
partial coverage of the state space. We establish the optimal asymptotic
approximation factors (up to constants) for all of these settings. In
particular, our bounds identify two instance-dependent factors for the
$L_2(\mu)$ norm and only one for the $L_\infty$ norm, which are shown to
dictate the hardness of off-policy evaluation under misspecification.
- Abstract(参考訳): 強化学習の理論的保証 (RL) は, 関数近似の誤特定誤差に関して, 乗算的爆破要因を負うことが知られている。
しかし、そのような「emph{approximation factor}」の性質(特に学習問題における最適形)は理解されていない。
本稿では,多くの疑問が残る線形オフ・ポリシー値関数推定において,この問題を考察する。
例えば、重み付けされた$L_2$-norm(重み付けはオフライン状態分布である)、$L_\infty$ norm、状態エイリアスの有無、状態空間の完全対部分カバレッジなどである。
これらすべての設定に対して最適な漸近近似係数(定数まで)を確立する。
特に、境界は、$l_2(\mu)$ノルムの2つのインスタンス依存因子と、誤って特定された場合のオフポリシー評価の困難さを規定する$l_\infty$ノルムの1つを識別する。
関連論文リスト
- Minimax Instrumental Variable Regression and $L_2$ Convergence
Guarantees without Identification or Closedness [71.42652863687117]
インストゥルメンタル変数(IV)回帰の非パラメトリック推定について検討した。
固定IV解に収束できる新しいペナル化ミニマックス推定器を提案する。
ラックス条件下での推定値に対して強い$L$誤差率を導出する。
論文 参考訳(メタデータ) (2023-02-10T18:08:49Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Off-policy estimation of linear functionals: Non-asymptotic theory for
semi-parametric efficiency [59.48096489854697]
観測データに基づいて線形汎関数を推定する問題は、因果推論と包帯文献の両方において標準的である。
このような手順の平均二乗誤差に対して非漸近上界を証明した。
非漸近的局所ミニマックス下限をマッチングすることにより、有限標本のインスタンス依存最適性を確立する。
論文 参考訳(メタデータ) (2022-09-26T23:50:55Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Inference on Strongly Identified Functionals of Weakly Identified
Functions [71.42652863687117]
本研究では,ニュアンス関数が存在しない場合でも,関数を強く識別するための新しい条件について検討する。
本稿では,プライマリおよびデバイアスのニュアンス関数に対するペナル化ミニマックス推定器を提案する。
論文 参考訳(メタデータ) (2022-08-17T13:38:31Z) - On Well-posedness and Minimax Optimal Rates of Nonparametric Q-function
Estimation in Off-policy Evaluation [1.575865518040625]
連続状態と行動を伴う無限水平マルコフ決定過程における非政治評価問題について検討する。
我々は、$Q$関数推定を非パラメトリックインスツルメンタル変数(NPIV)推定問題の特別な形式に再キャストする。
論文 参考訳(メタデータ) (2022-01-17T01:09:38Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Linear Classifiers Under Infinite Imbalance [1.370633147306388]
無限不均衡極限における二項分類のための線形判別関数の挙動について検討する。
広いクラスの重み関数に対して、インターセプトは分岐するが、係数ベクトルの残りの部分は無限の不均衡の下では有限なほぼ確実な極限を持つことを示す。
論文 参考訳(メタデータ) (2021-06-10T15:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。