論文の概要: Learning Action Embeddings for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2305.03954v2
- Date: Fri, 23 Feb 2024 10:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:25:45.936915
- Title: Learning Action Embeddings for Off-Policy Evaluation
- Title(参考訳): オフポリティアセスメントのための学習行動埋め込み
- Authors: Matej Cief, Jacek Golebiowski, Philipp Schmidt, Ziawasch Abedjan,
Artur Bekasov
- Abstract要約: オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。
しかし、アクションの数が多ければ、あるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。
Saito と Joachims は、代わりにアクション埋め込み(英語版)を用いて、大きなアクション空間における IPS のばらつきを減らし、マーシャライズされた IPS (MIPS) を提案する。
- 参考スコア(独自算出の注目度): 6.385697591955264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) methods allow us to compute the expected reward
of a policy by using the logged data collected by a different policy. OPE is a
viable alternative to running expensive online A/B tests: it can speed up the
development of new policies, and reduces the risk of exposing customers to
suboptimal treatments. However, when the number of actions is large, or certain
actions are under-explored by the logging policy, existing estimators based on
inverse-propensity scoring (IPS) can have a high or even infinite variance.
Saito and Joachims (arXiv:2202.06317v2 [cs.LG]) propose marginalized IPS (MIPS)
that uses action embeddings instead, which reduces the variance of IPS in large
action spaces. MIPS assumes that good action embeddings can be defined by the
practitioner, which is difficult to do in many real-world applications. In this
work, we explore learning action embeddings from logged data. In particular, we
use intermediate outputs of a trained reward model to define action embeddings
for MIPS. This approach extends MIPS to more applications, and in our
experiments improves upon MIPS with pre-defined embeddings, as well as standard
baselines, both on synthetic and real-world data. Our method does not make
assumptions about the reward model class, and supports using additional action
information to further improve the estimates. The proposed approach presents an
appealing alternative to DR for combining the low variance of DM with the low
bias of IPS.
- Abstract(参考訳): オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。
opeは高価なオンラインa/bテストの代替手段であり、新しいポリシーの開発をスピードアップし、顧客が最適以下の治療を受けるリスクを低減します。
しかし、アクションの数が多ければあるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。
Saito と Joachims (arXiv:2202.06317v2 [cs.LG]) は、代わりにアクション埋め込みを使用する余分な IPS (MIPS) を提案する。
MIPSは、優れたアクション埋め込みは実践者によって定義できると仮定している。
本研究では,ログデータからの学習行動埋め込みについて検討する。
特に、トレーニングされた報酬モデルの中間出力を用いてMIPSのアクション埋め込みを定義する。
このアプローチは、MIPSをより多くのアプリケーションに拡張し、我々の実験では、事前に定義された埋め込みと、合成データと実世界のデータの両方に基づく標準ベースラインでMIPSを改善する。
提案手法では,報酬モデルクラスに関する仮定は行わず,付加的な行動情報を用いて推定をさらに改善する。
提案手法は,dmの低分散とipsの低バイアスを組み合わせた,drの魅力ある代替案を示す。
関連論文リスト
- Off-Policy Evaluation of Slate Bandit Policies via Optimizing
Abstraction [22.215852332444907]
政策がスレートとして知られる多次元動作を選択する場合のスレート・コンテクスト・バンドイットの問題について検討する。
Inverse Propensity Scoring (IPS) の典型的な推定器は、大きな作用空間のためにかなりのばらつきに悩まされる。
我々は,低次元スレート抽象空間における重み付けを規定するラテントIPS (LIPS) と呼ばれる,スレート包帯のOPEの新しい推定器を開発した。
論文 参考訳(メタデータ) (2024-02-03T14:38:09Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Off-Policy Evaluation of Ranking Policies under Diverse User Behavior [25.226825574282937]
Inverse Propensity Scoring (IPS) は、大きなアクション空間下での高分散のため、ランキング設定において極めて不正確なものとなる。
この研究は、ユーザの振る舞いが多様であり、ユーザコンテキストによって異なるという、はるかに一般的な定式化を探求する。
結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-26T22:31:15Z) - Mimicking Better by Matching the Approximate Action Distribution [48.81067017094468]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior
Policies [3.855085732184416]
オフ政治評価は、行動ポリシーから収集されたオフラインデータを用いて目標ポリシーを評価する強化学習の鍵となる要素である。
本稿では,異なる行動ポリシーによって生成された推定器を正しく混合する方法について論じる。
シミュレーションリコメンデータシステムの実験から,提案手法は推定平均二乗誤差を低減するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-11-29T12:57:54Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。