論文の概要: Characterization of Efficient Influence Function for Off-Policy Evaluation Under Optimal Policies
- arxiv url: http://arxiv.org/abs/2505.13809v1
- Date: Tue, 20 May 2025 01:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.587533
- Title: Characterization of Efficient Influence Function for Off-Policy Evaluation Under Optimal Policies
- Title(参考訳): 最適政策下におけるオフポリシィ評価のための効率的な影響関数のキャラクタリゼーション
- Authors: Haoyu Wei,
- Abstract要約: オフ・ポリティィ・アセスメント(OPE)は、カウンターファクト・ポリシーの価値を推定するための強力なフレームワークを提供する。
最適条件下での値関数に対する効率的な影響関数の簡潔な評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) provides a powerful framework for estimating the value of a counterfactual policy using observational data, without the need for additional experimentation. Despite recent progress in robust and efficient OPE across various settings, rigorous efficiency analysis of OPE under an estimated optimal policy remains limited. In this paper, we establish a concise characterization of the efficient influence function for the value function under optimal policy within canonical Markov decision process models. Specifically, we provide the sufficient conditions for the existence of the efficient influence function and characterize its expression. We also give the conditions under which the EIF does not exist.
- Abstract(参考訳): オフ政治評価(OPE)は、追加の実験を必要とせず、観測データを用いて対実政策の価値を推定するための強力なフレームワークを提供する。
近年, 様々な環境下での堅牢かつ効率的なOPEの進歩にもかかわらず, 推定最適条件下でのOPEの厳密な効率解析は依然として限られている。
本稿では,正準マルコフ決定過程モデルにおける最適ポリシの下で,値関数に対する効率的な影響関数の簡潔な評価を行う。
具体的には,効率的な影響関数の存在に十分な条件を提供し,その表現を特徴付ける。
EIFが存在しない条件も提示する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Optimization Solution Functions as Deterministic Policies for Offline Reinforcement Learning [7.07623669995408]
本稿では,最適化の最適値に対する決定論的ポリシー(アクター)および単調関数として最適化解関数を用いる暗黙的アクター批判(iAC)フレームワークを提案する。
学習ポリシーは指数的減衰感度(EDS)特性を介して学習したアクターパラメータの準最適性に頑健であることを示す。
提案手法を実世界の2つのアプリケーションで検証し, 最先端(SOTA)オフラインRL法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-08-27T19:04:32Z) - Absolute Policy Optimization [10.503953488401926]
信頼性の高い低い性能の確率境界における単調な改善が保証される新しい目的関数を導入し、最適化する。
本実験は,連続制御ベンチマークタスクにおけるアプローチの有効性を実証し,Atariゲームへの適用性を拡張した。
論文 参考訳(メタデータ) (2023-10-20T02:40:05Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T07:24:38Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。