論文の概要: Beyond the Return: Off-policy Function Estimation under User-specified
Error-measuring Distributions
- arxiv url: http://arxiv.org/abs/2210.15543v1
- Date: Thu, 27 Oct 2022 15:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:26:32.642514
- Title: Beyond the Return: Off-policy Function Estimation under User-specified
Error-measuring Distributions
- Title(参考訳): 返却を超えて: ユーザ特定誤差測定分布に基づく非政治関数推定
- Authors: Audrey Huang, Nan Jiang
- Abstract要約: オフ・ポリティィ・アセスメント(英語: Off-policy Evaluation)は、政策の期待された回帰を推定し、その価値関数を推定する2つの関連するタスクを指す。
疎外化重要度サンプリングの目的に対して適切な正則化を課すことにより、実現可能性のみの下での非政治機能推定の保証を提供する。
- 参考スコア(独自算出の注目度): 8.881195152638986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation often refers to two related tasks: estimating the
expected return of a policy and estimating its value function (or other
functions of interest, such as density ratios). While recent works on
marginalized importance sampling (MIS) show that the former can enjoy provable
guarantees under realizable function approximation, the latter is only known to
be feasible under much stronger assumptions such as prohibitively expressive
discriminators. In this work, we provide guarantees for off-policy function
estimation under only realizability, by imposing proper regularization on the
MIS objectives. Compared to commonly used regularization in MIS, our
regularizer is much more flexible and can account for an arbitrary
user-specified distribution, under which the learned function will be close to
the groundtruth. We provide exact characterization of the optimal dual solution
that needs to be realized by the discriminator class, which determines the
data-coverage assumption in the case of value-function learning. As another
surprising observation, the regularizer can be altered to relax the
data-coverage requirement, and completely eliminate it in the ideal case with
strong side information.
- Abstract(参考訳): オフ・ポリティィ・アセスメント(英語: Off-policy evaluation)は、政策の期待された回帰を推定し、その値関数(あるいは密度比のような他の関心の関数)を推定する2つの関連するタスクを指す。
ミサライズされた重要度サンプリング(MIS)に関する最近の研究は、前者は実現可能な関数近似の下で証明可能な保証を享受できることを示しているが、後者は、禁制的な表現的判別器のようなより強い仮定の下でのみ実現可能であることが知られている。
本研究では、MISの目的に対して適切な正規化を課すことにより、実現可能性のみに基づく非政治関数推定の保証を提供する。
misでよく使われる正規化と比較して、我々の正規化器はずっと柔軟で、学習された関数が基部に近いような任意のユーザ指定分布を考慮できる。
我々は、値関数学習の場合のデータ被覆仮定を決定する識別器クラスによって実現する必要がある最適双対解の正確な特徴付けを提供する。
別の驚くべき観察として、正則化器はデータカバレッジ要件を緩和し、強い側情報を持つ理想的なケースで完全に排除することができる。
関連論文リスト
- Beyond Expected Return: Accounting for Policy Reproducibility when
Evaluating Reinforcement Learning Algorithms [9.649114720478872]
強化学習(Reinforcement Learning, RL)における多くの応用は、環境にノイズオリティが存在する。
これらの不確実性は、ひとつのロールアウトから別のロールアウトまで、まったく同じポリシーを別々に実行します。
RL の一般的な評価手順は、その分布の拡散を考慮しない期待された戻り値のみを用いて、連続した戻り値分布を要約する。
我々の研究は、この拡散をポリシーとして定義している: 何度もロールアウトするときに同様のパフォーマンスを得るポリシーの能力は、いくつかの現実世界のアプリケーションにおいて重要な特性である。
論文 参考訳(メタデータ) (2023-12-12T11:22:31Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。