論文の概要: Orthogonalized Estimation of Difference of $Q$-functions
- arxiv url: http://arxiv.org/abs/2406.08697v2
- Date: Wed, 16 Oct 2024 23:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:54.632435
- Title: Orthogonalized Estimation of Difference of $Q$-functions
- Title(参考訳): Q$関数の差分を直交的に推定する
- Authors: Defu Cao, Angela Zhou,
- Abstract要約: オフライン強化学習は、利用可能な観測データを持つ多くの環境で重要であるが、安全性、コスト、その他の懸念から、オンラインで新しいポリシーをデプロイできない。
CATEのような因果的コントラスト関数の因果的推論と機械学習目標推定の最近の進歩は、決定を最適化するのに十分であり、潜在的にスムーズな構造に適応できる。
我々は、Rラーナーの動的一般化を開発し、$Qpi$-functions, $Qpi(s,1)-Qpi(s,0)$の差を推定し、最適化する。
- 参考スコア(独自算出の注目度): 13.986624299484385
- License:
- Abstract: Offline reinforcement learning is important in many settings with available observational data but the inability to deploy new policies online due to safety, cost, and other concerns. Many recent advances in causal inference and machine learning target estimation of causal contrast functions such as CATE, which is sufficient for optimizing decisions and can adapt to potentially smoother structure. We develop a dynamic generalization of the R-learner (Nie and Wager 2021, Lewis and Syrgkanis 2021) for estimating and optimizing the difference of $Q^\pi$-functions, $Q^\pi(s,1)-Q^\pi(s,0)$ (which can be used to optimize multiple-valued actions). We leverage orthogonal estimation to improve convergence rates in the presence of slower nuisance estimation rates and prove consistency of policy optimization under a margin condition. The method can leverage black-box nuisance estimators of the $Q$-function and behavior policy to target estimation of a more structured $Q$-function contrast.
- Abstract(参考訳): オフライン強化学習は、利用可能な観測データを持つ多くの環境で重要であるが、安全性、コスト、その他の懸念から、オンラインで新しいポリシーを展開できない。
CATEのような因果的コントラスト関数の因果的推論と機械学習ターゲット推定の最近の進歩は、決定を最適化するのに十分であり、潜在的にスムーズな構造に適応できる。
我々は、Q^\pi$-functions, $Q^\pi(s,1)-Q^\pi(s,0)$の差を推定し最適化するために、R-ラーナー(Nie and Wager 2021, Lewis and Syrgkanis 2021)の動的一般化を開発する。
我々は直交推定を利用して、緩やかなニュアンス推定率の存在下での収束率を向上し、マージン条件下での政策最適化の整合性を証明する。
この方法は、より構造化された$Q$-functionコントラストを推定するために、$Q$-functionと振舞いポリシーのブラックボックスニュアンス推定器を利用することができる。
関連論文リスト
- Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization [11.11876897168701]
本稿では,次数$tildemathcalO(mathrmpoly(H)sqrtSAT)$の残差を求めるアルゴリズムを提案する。
提案したアルゴリズムと分析は、占有対策によって与えられる典型的なツールを完全に回避する。
論文 参考訳(メタデータ) (2024-07-08T08:06:45Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。