論文の概要: Distributionally Robust Policy Evaluation under General Covariate Shift
in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2401.11353v1
- Date: Sun, 21 Jan 2024 00:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:55:17.530722
- Title: Distributionally Robust Policy Evaluation under General Covariate Shift
in Contextual Bandits
- Title(参考訳): コンテクスト帯域における一般共変量シフト下におけるロバスト分布評価
- Authors: Yihong Guo, Hao Liu, Yisong Yue, Anqi Liu
- Abstract要約: 本稿では,オフライン政策評価の信頼性を高めるための分散ロバストな手法を提案する。
本手法は, 状況と政策分布の両面での相違点が存在する場合に, 堅牢な政策評価結果を提供することを目的としている。
- 参考スコア(独自算出の注目度): 34.4901181676133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a distributionally robust approach that enhances the reliability
of offline policy evaluation in contextual bandits under general covariate
shifts. Our method aims to deliver robust policy evaluation results in the
presence of discrepancies in both context and policy distribution between
logging and target data. Central to our methodology is the application of
robust regression, a distributionally robust technique tailored here to improve
the estimation of conditional reward distribution from logging data. Utilizing
the reward model obtained from robust regression, we develop a comprehensive
suite of policy value estimators, by integrating our reward model into
established evaluation frameworks, namely direct methods and doubly robust
methods. Through theoretical analysis, we further establish that the proposed
policy value estimators offer a finite sample upper bound for the bias,
providing a clear advantage over traditional methods, especially when the shift
is large. Finally, we designed an extensive range of policy evaluation
scenarios, covering diverse magnitudes of shifts and a spectrum of logging and
target policies. Our empirical results indicate that our approach significantly
outperforms baseline methods, most notably in 90% of the cases under the policy
shift-only settings and 72% of the scenarios under the general covariate shift
settings.
- Abstract(参考訳): 本稿では,コンテキスト・バンディットにおけるオフライン・ポリシー評価の信頼性を高める分布的ロバストな手法を提案する。
本手法は,ログデータと対象データ間の状況および方針分布に相違がある場合に,ロバストな政策評価結果を提供することを目的とする。
当社の方法論の中心は,ログデータから条件付き報酬分布の推定を改善するために,分散的に堅牢な手法であるロバスト回帰の適用である。
我々は,ロバスト回帰から得られた報酬モデルを用いて,報酬モデルを確立された評価フレームワーク,すなわち直接メソッドと二重ロバストメソッドに統合することにより,政策価値評価の包括的なスイートを開発する。
理論的解析を通じて、提案した政策値推定器はバイアスに対して有限サンプル上限を提供し、特にシフトが大きい場合、従来の手法よりも明確な優位性を与える。
最後に,広範な政策評価シナリオを設計し,さまざまな規模のシフトとログおよびターゲットポリシの範囲をカバーした。
その結果,政策シフトのみの設定の場合の90%,一般共変量シフト設定のシナリオの72%において,我々のアプローチがベースライン手法を著しく上回っていることがわかった。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - ReVar: Strengthening Policy Evaluation via Reduced Variance Sampling [10.925914554822343]
我々は木構造MDPのクラス内で最適なデータ収集の理論を開発する。
我々はReVarがオラクル戦略に匹敵する平均二乗誤差で政策評価につながることを実証的に検証した。
論文 参考訳(メタデータ) (2022-03-09T03:41:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。