論文の概要: Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching
- arxiv url: http://arxiv.org/abs/2605.06474v2
- Date: Fri, 08 May 2026 12:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:23.223027
- Title: Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching
- Title(参考訳): Q-MMR:再帰的再重み付けとモーメントマッチングによるオフポリティアセスメント
- Authors: Xiang Li, Nan Jiang,
- Abstract要約: 有限水平MDPにおける非政治評価のための新しい理論フレームワークQ-MMRを提案する。
重要サンプリングや線形FQEなど,既存の手法との接続を確立する。
- 参考スコア(独自算出の注目度): 9.794980032850033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel theoretical framework, Q-MMR, for off-policy evaluation in finite-horizon MDPs. Q-MMR learns a set of scalar weights, one for each data point, such that the reweighted rewards approximate the expected return under the target policy. The weights are learned inductively in a top-down manner via a moment matching objective against a value-function discriminator class. Notably, and perhaps surprisingly, a data-dependent finite-sample guarantee for general function approximation can be established under only the realizability of $Q^π$, with a dimension-free bound -- that is, the error does not depend on the statistical complexity of the function class. We also establish connections to several existing methods, such as importance sampling and linear FQE. Further theoretical analyses shed new light on the nature of coverage, a concept of fundamental importance to offline RL.
- Abstract(参考訳): 有限水平MDPにおける非政治評価のための新しい理論フレームワークQ-MMRを提案する。
Q-MMRは、各データポイントに対して1つのスカラーウェイトを学習し、リウェイトされた報酬は、目標ポリシーの下で期待されるリターンを近似する。
重みは、値関数判別器クラスに対するモーメントマッチング目的によって、トップダウンでインダクティブに学習される。
特に、そして意外なことに、一般関数近似に対するデータ依存有限サンプル保証は、次元自由境界を持つ$Q^π$の実現可能性(つまり、誤差は関数クラスの統計的複雑さに依存しない)の下で確立することができる。
また,重要サンプリングや線形FQEなど,既存の手法との接続を確立する。
さらなる理論的分析は、オフラインRLの基本的重要性の概念であるカバレッジの性質に新たな光を当てた。
関連論文リスト
- Gaussian-Mixture-Model Q-Functions for Policy Iteration in Reinforcement Learning [7.056697401102689]
本稿では, ガウス混合モデル(GMM)のQ-関数損失の直接サロゲートとして, 関数近似を新たに導入する。
これらのパラメトリックモデルはGMM-QFと呼ばれ、相当な表現能力を持っている。
それらは、幅広い種類の函数に対する普遍近似である。
論文 参考訳(メタデータ) (2025-12-21T15:00:32Z) - Finite-Time Bounds for Average-Reward Fitted Q-Iteration [28.213334434903775]
MDP を弱通信する関数近似を用いた平均逆オフライン RL に対する最初のサンプル複雑性値を確立した。
平均逆条件下での有限時間解析を可能にするためには, アンカーを重み減衰の一形態として解釈することが重要である。
論文 参考訳(メタデータ) (2025-10-20T10:33:25Z) - Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference [33.14076284663493]
短期的なデータから長期的な因果効果を推定しなければならない。
MDPはこのような長期的ダイナミクスを捉えるための自然なフレームワークを提供する。
非パラメトリックな実装は時間間重なりの強い仮定を必要とする。
アイソトニックベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
論文 参考訳(メタデータ) (2025-01-12T20:35:28Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Off-Policy Fitted Q-Evaluation with Differentiable Function
Approximators: Z-Estimation and Inference Theory [34.307187875861516]
強化学習(Reinforcement Learning, RL)における基盤の1つとして, オフ・ポリティ・アセスメント(Off-Policy Evaluation)が有効である
本稿では,一般微分関数近似器を用いたFQEに着目し,この理論を神経機能近似に適用する。
有限サンプル FQE 誤差境界は同じ分散項で支配され、関数クラス依存の発散でも有界である。
論文 参考訳(メタデータ) (2022-02-10T11:59:54Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。