論文の概要: Learning from eXtreme Bandit Feedback
- arxiv url: http://arxiv.org/abs/2009.12947v2
- Date: Mon, 22 Feb 2021 22:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:18:01.889204
- Title: Learning from eXtreme Bandit Feedback
- Title(参考訳): eXtreme Banditフィードバックから学ぶ
- Authors: Romain Lopez and Inderjit S. Dhillon and Michael I. Jordan
- Abstract要約: 非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
- 参考スコア(独自算出の注目度): 105.0383130431503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of batch learning from bandit feedback in the setting of
extremely large action spaces. Learning from extreme bandit feedback is
ubiquitous in recommendation systems, in which billions of decisions are made
over sets consisting of millions of choices in a single day, yielding massive
observational data. In these large-scale real-world applications, supervised
learning frameworks such as eXtreme Multi-label Classification (XMC) are widely
used despite the fact that they incur significant biases due to the mismatch
between bandit feedback and supervised labels. Such biases can be mitigated by
importance sampling techniques, but these techniques suffer from impractical
variance when dealing with a large number of actions. In this paper, we
introduce a selective importance sampling estimator (sIS) that operates in a
significantly more favorable bias-variance regime. The sIS estimator is
obtained by performing importance sampling on the conditional expectation of
the reward with respect to a small subset of actions for each instance (a form
of Rao-Blackwellization). We employ this estimator in a novel algorithmic
procedure -- named Policy Optimization for eXtreme Models (POXM) -- for
learning from bandit feedback on XMC tasks. In POXM, the selected actions for
the sIS estimator are the top-p actions of the logging policy, where p is
adjusted from the data and is significantly smaller than the size of the action
space. We use a supervised-to-bandit conversion on three XMC datasets to
benchmark our POXM method against three competing methods: BanditNet, a
previously applied partial matching pruning strategy, and a supervised learning
baseline. Whereas BanditNet sometimes improves marginally over the logging
policy, our experiments show that POXM systematically and significantly
improves over all baselines.
- Abstract(参考訳): 非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
極端な帯域幅のフィードバックから学ぶことはレコメンデーションシステムにおいて、毎日数百万の選択肢からなるセットに対して数十億の意思決定が行われ、膨大な観測データが得られる。
これらの大規模実世界アプリケーションでは,バンドイットフィードバックと教師付きラベルのミスマッチによる大きなバイアスを負うにもかかわらず,extreme multi-label classification (xmc) などの教師付き学習フレームワークが広く利用されている。
このようなバイアスは、重要なサンプリング技術によって軽減できるが、多くのアクションを扱う場合、非実用的ばらつきに苦しむ。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
本発明のsIS推定器は、各インスタンスのアクションの小さなサブセット(ラオブラックウェル化の一形態)に対する報酬の条件予測について、重要サンプリングを行うことにより得られる。
我々は、xmcタスクのバンディットフィードバックから学ぶために、この推定器を、新たなアルゴリズム手順である、極端モデルのためのポリシー最適化(poxm)で採用した。
POXMでは、sIS推定器の選択されたアクションはロギングポリシーの上位pアクションであり、pはデータから調整され、アクション空間のサイズよりもかなり小さい。
我々は3つのXMCデータセットに対して教師付き帯域変換を行い、POXM法を3つの競合する手法に対してベンチマークする。
BanditNetは、ロギングポリシーよりも極端に改善されることがあるが、我々の実験は、POXMが体系的に、すべてのベースラインに対して大幅に改善されていることを示している。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Off-Policy Evaluation of Slate Bandit Policies via Optimizing
Abstraction [22.215852332444907]
政策がスレートとして知られる多次元動作を選択する場合のスレート・コンテクスト・バンドイットの問題について検討する。
Inverse Propensity Scoring (IPS) の典型的な推定器は、大きな作用空間のためにかなりのばらつきに悩まされる。
我々は,低次元スレート抽象空間における重み付けを規定するラテントIPS (LIPS) と呼ばれる,スレート包帯のOPEの新しい推定器を開発した。
論文 参考訳(メタデータ) (2024-02-03T14:38:09Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Learning Action Embeddings for Off-Policy Evaluation [6.385697591955264]
オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。
しかし、アクションの数が多ければ、あるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。
Saito と Joachims は、代わりにアクション埋め込み(英語版)を用いて、大きなアクション空間における IPS のばらつきを減らし、マーシャライズされた IPS (MIPS) を提案する。
論文 参考訳(メタデータ) (2023-05-06T06:44:30Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Bayesian Non-stationary Linear Bandits for Large-Scale Recommender
Systems [6.009759445555003]
この問題に対処するために,線形コンテキスト多重武装バンディットフレームワークを構築した。
本研究では,高次元特徴ベクトルを用いた線形帯域問題に対する意思決定ポリシーを開発する。
提案するリコメンデータシステムは,実行環境を最小化しながら,ユーザの項目嗜好をオンラインで学習する。
論文 参考訳(メタデータ) (2022-02-07T13:51:19Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs [11.1546439770774]
極度のペイオフを伴うバンディット問題におけるオンライン意思決定のための新しいタイプの獲得機能を提示する。
我々は,最も関連性が高いと考えられる盗賊を探索する新しいタイプの上位信頼境界(UCB)取得関数を定式化する。
論文 参考訳(メタデータ) (2021-02-19T18:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。