Fugu-MT 論文翻訳(概要): Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits

論文の概要: Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits

arxiv url: http://arxiv.org/abs/2401.11353v2
Date: Fri, 9 Aug 2024 07:14:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 20:30:23.719445
Title: Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits
Title（参考訳）: コンテクスト帯域における一般共変量シフト下におけるロバスト分布評価
Authors: Yihong Guo, Hao Liu, Yisong Yue, Anqi Liu,
Abstract要約: 本稿では,オフライン政策評価の信頼性を高めるための分散ロバストな手法を提案する。本手法は, 状況と政策分布の両面での相違点が存在する場合に, 堅牢な政策評価結果を提供することを目的としている。
参考スコア（独自算出の注目度）: 31.571978291138866
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a distributionally robust approach that enhances the reliability of offline policy evaluation in contextual bandits under general covariate shifts. Our method aims to deliver robust policy evaluation results in the presence of discrepancies in both context and policy distribution between logging and target data. Central to our methodology is the application of robust regression, a distributionally robust technique tailored here to improve the estimation of conditional reward distribution from logging data. Utilizing the reward model obtained from robust regression, we develop a comprehensive suite of policy value estimators, by integrating our reward model into established evaluation frameworks, namely direct methods and doubly robust methods. Through theoretical analysis, we further establish that the proposed policy value estimators offer a finite sample upper bound for the bias, providing a clear advantage over traditional methods, especially when the shift is large. Finally, we designed an extensive range of policy evaluation scenarios, covering diverse magnitudes of shifts and a spectrum of logging and target policies. Our empirical results indicate that our approach significantly outperforms baseline methods, most notably in 90% of the cases under the policy shift-only settings and 72% of the scenarios under the general covariate shift settings.
Abstract（参考訳）: 我々は、一般的な共変量シフトの下で、文脈的帯域幅におけるオフラインポリシー評価の信頼性を高めるために、分布的に堅牢なアプローチを導入する。本手法は,ログデータと対象データ間の状況および方針分布に相違がある場合に,ロバストな政策評価結果を提供することを目的としている。当社の方法論の中心は,ログデータから条件付き報酬分布の推定を改善するために,分散的に堅牢な手法であるロバスト回帰の適用である。頑健な回帰から得られる報酬モデルを利用して、我々の報酬モデルを確立された評価フレームワーク、すなわち直接手法と二重頑健な手法に統合することにより、政策価値推定の包括的スイートを開発する。理論的解析を通じて、提案した政策値推定器はバイアスに対して有限サンプル上限を提供し、特にシフトが大きい場合、従来の手法よりも明確な優位性を与える。最後に、幅広いポリシー評価シナリオを設計し、さまざまな規模のシフトと、ログとターゲットポリシーのスペクトルをカバーした。以上の結果から,本手法は方針変更のみによる場合の90%,一般共変量シフトによる場合のシナリオの72%において,ベースライン法よりも有意に優れていたことが示唆された。

関連論文リスト

Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Optimal Policy Adaptation under Covariate Shift [15.703626346971182]
目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。そして、推定報酬を最適化することで最適な政策を学ぶ。
論文参考訳（メタデータ） (2025-01-14T12:33:02Z)
Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文参考訳（メタデータ） (2023-10-24T01:00:01Z)
Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文参考訳（メタデータ） (2023-09-27T16:42:10Z)
ReVar: Strengthening Policy Evaluation via Reduced Variance Sampling [10.925914554822343]
我々は木構造MDPのクラス内で最適なデータ収集の理論を開発する。我々はReVarがオラクル戦略に匹敵する平均二乗誤差で政策評価につながることを実証的に検証した。
論文参考訳（メタデータ） (2022-03-09T03:41:15Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。 BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文参考訳（メタデータ） (2020-12-12T23:09:21Z)
Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文参考訳（メタデータ） (2020-11-09T04:41:21Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。