論文の概要: Learning Action Embeddings for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2305.03954v1
- Date: Sat, 6 May 2023 06:44:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 18:25:24.502096
- Title: Learning Action Embeddings for Off-Policy Evaluation
- Title(参考訳): オフポリティアセスメントのための学習行動埋め込み
- Authors: Matej Cief, Jacek Golebiowski, Philipp Schmidt, Ziawasch Abedjan,
Artur Bekasov
- Abstract要約: オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。
しかし、アクションの数が多ければ、あるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。
Saito と Joachims は、代わりにアクション埋め込み(英語版)を用いて、大きなアクション空間における IPS のばらつきを減らし、マーシャライズされた IPS (MIPS) を提案する。
- 参考スコア(独自算出の注目度): 6.816907813933822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) methods allow us to compute the expected reward
of a policy by using the logged data collected by a different policy. OPE is a
viable alternative to running expensive online A/B tests: it can speed up the
development of new policies, and reduces the risk of exposing customers to
suboptimal treatments. However, when the number of actions is large, or certain
actions are under-explored by the logging policy, existing estimators based on
inverse-propensity scoring (IPS) can have a high or even infinite variance.
Saito and Joachims (arXiv:2202.06317v2 [cs.LG]) propose marginalized IPS (MIPS)
that uses action embeddings instead, which reduces the variance of IPS in large
action spaces. MIPS assumes that good action embeddings can be defined by the
practitioner, which is difficult to do in many real-world applications. In this
work, we explore learning action embeddings from logged data. In particular, we
use intermediate outputs of a trained reward model to define action embeddings
for MIPS. This approach extends MIPS to more applications, and in our
experiments improves upon MIPS with pre-defined embeddings, as well as standard
baselines, both on synthetic and real-world data. Our method does not make
assumptions about the reward model class, and supports using additional action
information to further improve the estimates. The proposed approach presents an
appealing alternative to DR for combining the low variance of DM with the low
bias of IPS.
- Abstract(参考訳): オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。
opeは高価なオンラインa/bテストの代替手段であり、新しいポリシーの開発をスピードアップし、顧客が最適以下の治療を受けるリスクを低減します。
しかし、アクションの数が多ければあるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。
Saito と Joachims (arXiv:2202.06317v2 [cs.LG]) は、代わりにアクション埋め込みを使用する余分な IPS (MIPS) を提案する。
MIPSは、優れたアクション埋め込みは実践者によって定義できると仮定している。
本研究では,ログデータからの学習行動埋め込みについて検討する。
特に、トレーニングされた報酬モデルの中間出力を用いてMIPSのアクション埋め込みを定義する。
このアプローチは、MIPSをより多くのアプリケーションに拡張し、我々の実験では、事前に定義された埋め込みと、合成データと実世界のデータの両方に基づく標準ベースラインでMIPSを改善する。
提案手法では,報酬モデルクラスに関する仮定は行わず,付加的な行動情報を用いて推定をさらに改善する。
提案手法は,dmの低分散とipsの低バイアスを組み合わせた,drの魅力ある代替案を示す。
関連論文リスト
- Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions [8.90692770076582]
最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。
従来の手法と比較して,RCPは収束が遅く,収束時に期待される報酬が劣っていることを示す。
我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
論文 参考訳(メタデータ) (2024-06-16T03:43:55Z) - $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-16T12:04:55Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Off-Policy Evaluation of Slate Bandit Policies via Optimizing
Abstraction [22.215852332444907]
政策がスレートとして知られる多次元動作を選択する場合のスレート・コンテクスト・バンドイットの問題について検討する。
Inverse Propensity Scoring (IPS) の典型的な推定器は、大きな作用空間のためにかなりのばらつきに悩まされる。
我々は,低次元スレート抽象空間における重み付けを規定するラテントIPS (LIPS) と呼ばれる,スレート包帯のOPEの新しい推定器を開発した。
論文 参考訳(メタデータ) (2024-02-03T14:38:09Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Off-Policy Evaluation of Ranking Policies under Diverse User Behavior [25.226825574282937]
Inverse Propensity Scoring (IPS) は、大きなアクション空間下での高分散のため、ランキング設定において極めて不正確なものとなる。
この研究は、ユーザの振る舞いが多様であり、ユーザコンテキストによって異なるという、はるかに一般的な定式化を探求する。
結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-26T22:31:15Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。