論文の概要: Context-Action Embedding Learning for Off-Policy Evaluation in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2509.00648v1
- Date: Sun, 31 Aug 2025 00:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.321895
- Title: Context-Action Embedding Learning for Off-Policy Evaluation in Contextual Bandits
- Title(参考訳): 文脈帯域におけるオフ・ポリティ・アセスメントのためのコンテキスト・アクション・埋め込み学習
- Authors: Kushagra Chandak, Vincent Liu, Haanvid Lee,
- Abstract要約: Inverse Propensity Score (IPS) 重み付けは、アクション空間が大きい場合や、コンテキスト-アクション空間の一部が過小評価されている場合、大きなばらつきに悩まされる。
最近導入されたMarginalized IPS (MIPS) 推定器は、アクション埋め込みを利用してこの問題を軽減する。
我々は、MIPSのMSEを最小限に抑えるために、オフラインデータからコンテキストアクション埋め込みを学習するMIPSのためのContext-Action Embedding Learningを導入する。
- 参考スコア(独自算出の注目度): 3.5219188193742563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider off-policy evaluation (OPE) in contextual bandits with finite action space. Inverse Propensity Score (IPS) weighting is a widely used method for OPE due to its unbiased, but it suffers from significant variance when the action space is large or when some parts of the context-action space are underexplored. Recently introduced Marginalized IPS (MIPS) estimators mitigate this issue by leveraging action embeddings. However, these embeddings do not minimize the mean squared error (MSE) of the estimators and do not consider context information. To address these limitations, we introduce Context-Action Embedding Learning for MIPS, or CAEL-MIPS, which learns context-action embeddings from offline data to minimize the MSE of the MIPS estimator. Building on the theoretical analysis of bias and variance of MIPS, we present an MSE-minimizing objective for CAEL-MIPS. In the empirical studies on a synthetic dataset and a real-world dataset, we demonstrate that our estimator outperforms baselines in terms of MSE.
- Abstract(参考訳): 行動空間が有限である文脈的帯域におけるオフ政治評価(OPE)について考察する。
Inverse Propensity Score (IPS) 重み付けは OPE の非バイアスのため広く使われている手法であるが、アクション空間が大きければ、コンテキストアクション空間の一部が過小評価されている場合、大きなばらつきに悩まされる。
最近導入されたMarginalized IPS (MIPS) 推定器は、アクション埋め込みを利用してこの問題を軽減する。
しかし、これらの埋め込みは推定器の平均二乗誤差(MSE)を最小限に抑えず、文脈情報を考慮しない。
これらの制約に対処するために,MIPS の MSE を最小化するために,オフラインデータからコンテキストアクション埋め込みを学習する Context-Action Embedding Learning for MIPS (CAEL-MIPS) を導入する。
MIPSの偏りと分散の理論的解析に基づいてCAEL-MIPSのMSE最小化目標を示す。
人工データセットと実世界のデータセットに関する実証研究において、我々の推定器はMSEの点でベースラインよりも優れていることを示した。
関連論文リスト
- RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Off-Policy Evaluation of Slate Bandit Policies via Optimizing
Abstraction [22.215852332444907]
政策がスレートとして知られる多次元動作を選択する場合のスレート・コンテクスト・バンドイットの問題について検討する。
Inverse Propensity Scoring (IPS) の典型的な推定器は、大きな作用空間のためにかなりのばらつきに悩まされる。
我々は,低次元スレート抽象空間における重み付けを規定するラテントIPS (LIPS) と呼ばれる,スレート包帯のOPEの新しい推定器を開発した。
論文 参考訳(メタデータ) (2024-02-03T14:38:09Z) - Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits [41.91108406329159]
文脈的包帯におけるオフ・ポリティ・アセスメント(OPE)は、コストのかかる実験をせずに既存のデータを用いて新しいポリシーを評価するために不可欠である。
我々は、文脈的盗賊のための新しいOPE推定器、Marginal Ratio (MR) 推定器を導入する。
論文 参考訳(メタデータ) (2023-12-03T17:04:57Z) - Learning Action Embeddings for Off-Policy Evaluation [6.385697591955264]
オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。
しかし、アクションの数が多ければ、あるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。
Saito と Joachims は、代わりにアクション埋め込み(英語版)を用いて、大きなアクション空間における IPS のばらつきを減らし、マーシャライズされた IPS (MIPS) を提案する。
論文 参考訳(メタデータ) (2023-05-06T06:44:30Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。