論文の概要: Optimal Policy Adaptation under Covariate Shift
- arxiv url: http://arxiv.org/abs/2501.08067v1
- Date: Tue, 14 Jan 2025 12:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:43.133414
- Title: Optimal Policy Adaptation under Covariate Shift
- Title(参考訳): 共変量シフト下における最適政策適応
- Authors: Xueqing Liu, Qinwei Yang, Zhaoqing Tian, Ruocheng Guo, Peng Wu,
- Abstract要約: 目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。
我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。
そして、推定報酬を最適化することで最適な政策を学ぶ。
- 参考スコア(独自算出の注目度): 15.703626346971182
- License:
- Abstract: Transfer learning of prediction models has been extensively studied, while the corresponding policy learning approaches are rarely discussed. In this paper, we propose principled approaches for learning the optimal policy in the target domain by leveraging two datasets: one with full information from the source domain and the other from the target domain with only covariates. First, under the setting of covariate shift, we formulate the problem from a perspective of causality and present the identifiability assumptions for the reward induced by a given policy. Then, we derive the efficient influence function and the semiparametric efficiency bound for the reward. Based on this, we construct a doubly robust and semiparametric efficient estimator for the reward and then learn the optimal policy by optimizing the estimated reward. Moreover, we theoretically analyze the bias and the generalization error bound for the learned policy. Furthermore, in the presence of both covariate and concept shifts, we propose a novel sensitivity analysis method to evaluate the robustness of the proposed policy learning approach. Extensive experiments demonstrate that the approach not only estimates the reward more accurately but also yields a policy that closely approximates the theoretically optimal policy.
- Abstract(参考訳): 予測モデルの伝達学習は広く研究されているが、それに対応する政策学習アプローチはめったに議論されていない。
本稿では、ソースドメインからの全情報と、ターゲットドメインからの情報のみを共変数とする2つのデータセットを活用することによって、ターゲットドメインの最適ポリシーを学習するための原則的アプローチを提案する。
まず、共変量シフトの設定の下で、因果性の観点から問題を定式化し、与えられたポリシーによって誘導される報酬に対する識別可能性の仮定を示す。
次に、報酬に拘束される効率的な影響関数と半パラメトリック効率を導出する。
そこで本研究では,報酬に対する2つの頑健かつ半パラメトリックな効率的な評価器を構築し,評価された報酬を最適化して最適な政策を学習する。
さらに,学習方針に拘束されるバイアスと一般化誤差を理論的に解析する。
さらに,共変量および概念シフトの存在下で,提案手法のロバスト性を評価するための新しい感度解析手法を提案する。
徹底的な実験は、アプローチが報酬をより正確に見積もるだけでなく、理論上最適なポリシーを近似するポリシーも得られることを示した。
関連論文リスト
- Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning [17.245293915129942]
深層強化学習では、全報酬を最大化するのではなく、割引報酬の最大化がしばしば用いられる。
我々は,全報酬を最大化する政策に関連して,割引報酬を最大化することで得られる政策の最適度を分析した。
そこで我々は,強化学習アルゴリズムの性能向上を図るため,ある状況下で2つの目的の最適ポリシーを整合させる手法を開発した。
論文 参考訳(メタデータ) (2024-07-18T08:33:10Z) - Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits [31.571978291138866]
本稿では,オフライン政策評価の信頼性を高めるための分散ロバストな手法を提案する。
本手法は, 状況と政策分布の両面での相違点が存在する場合に, 堅牢な政策評価結果を提供することを目的としている。
論文 参考訳(メタデータ) (2024-01-21T00:42:06Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。