論文の概要: Wasserstein Distributionally Robust Policy Evaluation and Learning for
Contextual Bandits
- arxiv url: http://arxiv.org/abs/2309.08748v1
- Date: Fri, 15 Sep 2023 20:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 19:33:15.454450
- Title: Wasserstein Distributionally Robust Policy Evaluation and Learning for
Contextual Bandits
- Title(参考訳): 文脈的バンディットに対するwasserstein分布的ロバストなポリシー評価と学習
- Authors: Yi Shen, Pan Xu, Michael M. Zavlanos
- Abstract要約: 我々は不確実性集合の代わりにワッサーシュタイン距離を利用する新しい分布ロバスト最適化(DRO)手法を提案する。
また,提案手法の有限標本複雑性と反復複雑性の理論的解析を行った。
- 参考スコア(独自算出の注目度): 18.982448033389588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Without direct interaction with the environment. Often, the environment in
which the data are collected differs from the environment in which the learned
policy is applied. To account for the effect of different environments during
learning and execution, distributionally robust optimization (DRO) methods have
been developed that compute worst-case bounds on the policy values assuming
that the distribution of the new environment lies within an uncertainty set.
Typically, this uncertainty set is defined based on the KL divergence around
the empirical distribution computed from the logging dataset. However, the KL
uncertainty set fails to encompass distributions with varying support and lacks
awareness of the geometry of the distribution support. As a result, KL
approaches fall short in addressing practical environment mismatches and lead
to over-fitting to worst-case scenarios. To overcome these limitations, we
propose a novel DRO approach that employs the Wasserstein distance instead.
While Wasserstein DRO is generally computationally more expensive compared to
KL DRO, we present a regularized method and a practical (biased) stochastic
gradient descent method to optimize the policy efficiently. We also provide a
theoretical analysis of the finite sample complexity and iteration complexity
for our proposed method. We further validate our approach using a public
dataset that was recorded in a randomized stoke trial.
- Abstract(参考訳): 環境との直接の相互作用なしに
多くの場合、データが収集される環境は、学習されたポリシーが適用される環境とは異なる。
学習・実行中の異なる環境の影響を考慮し,新しい環境の分布が不確実性集合内にあると仮定して,政策値の最悪のケース境界を計算する分散ロバスト最適化法(DRO)が開発されている。
通常、この不確実性集合はロギングデータセットから計算された経験的分布に関するKL分散に基づいて定義される。
しかし、KLの不確実性集合は様々な支持を持つ分布を包含できず、分布支援の幾何学的認識が欠如している。
その結果、klアプローチは実用的な環境ミスマッチに対処するのに不足し、最悪のシナリオへの過剰フィットにつながる。
これらの限界を克服するために、代わりにwasserstein距離を用いる新しいdroアプローチを提案する。
Wasserstein DRO は一般に KL DRO よりも計算コストが高いが,本手法は正規化手法と,その最適化を効率的に行う実践的(バイアス付き)確率勾配勾配法を提案する。
また,提案手法の有限標本複雑性と反復複雑性の理論的解析を行った。
さらに,ランダム化ストーク試験で記録された公開データセットを用いて,このアプローチを検証した。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文 参考訳(メタデータ) (2022-07-11T22:45:29Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。