論文の概要: Towards the D-Optimal Online Experiment Design for Recommender Selection
- arxiv url: http://arxiv.org/abs/2110.12132v1
- Date: Sat, 23 Oct 2021 04:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 15:11:05.581069
- Title: Towards the D-Optimal Online Experiment Design for Recommender Selection
- Title(参考訳): D-Optimal Online Experiment Design for Recommender Selectionに向けて
- Authors: Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, Kannan Achan
- Abstract要約: ユーザとレコメンデーションの両方が、報酬に有益なコンテキスト機能を持っているため、最適なオンライン実験を見つけることは簡単ではない。
本研究では,古典統計学のemphD-Optimal設計を活用し,探索時の最大情報ゲインを実現する。
次に、Walmart.comでのデプロイメントの例を使って、提案手法の実践的洞察と効果を十分に説明します。
- 参考スコア(独自算出の注目度): 18.204325860752768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting the optimal recommender via online exploration-exploitation is
catching increasing attention where the traditional A/B testing can be slow and
costly, and offline evaluations are prone to the bias of history data. Finding
the optimal online experiment is nontrivial since both the users and displayed
recommendations carry contextual features that are informative to the reward.
While the problem can be formalized via the lens of multi-armed bandits, the
existing solutions are found less satisfactorily because the general
methodologies do not account for the case-specific structures, particularly for
the e-commerce recommendation we study. To fill in the gap, we leverage the
\emph{D-optimal design} from the classical statistics literature to achieve the
maximum information gain during exploration, and reveal how it fits seamlessly
with the modern infrastructure of online inference. To demonstrate the
effectiveness of the optimal designs, we provide semi-synthetic simulation
studies with published code and data for reproducibility purposes. We then use
our deployment example on Walmart.com to fully illustrate the practical
insights and effectiveness of the proposed methods.
- Abstract(参考訳): オンライン探索-探索を通して最適な推奨者を選択することは、従来のA/Bテストが遅くてコストがかかり、オフライン評価が歴史データの偏りを招きやすいという注目を集めている。
ユーザとレコメンデーションの両方が、報酬に有益なコンテキスト機能を持っているため、最適なオンライン実験を見つけることは簡単ではない。
この問題は、マルチアームのバンディットのレンズを通して形式化できるが、一般的な方法論がケース固有の構造、特に我々が研究しているeコマースのレコメンデーションを考慮しないため、既存のソリューションは満足できない。
このギャップを埋めるために、我々は古典統計学の文献から得られた \emph{d-optimal design} を利用して、探究中に得られる情報を最大限に活用し、オンライン推論の現代的なインフラといかにシームレスに適合するかを明らかにする。
最適な設計の有効性を示すために,公開コードと再現性のためのデータを用いた半合成シミュレーション研究を行う。
次に、Walmart.comのデプロイメント例を使って、提案手法の実践的洞察と有効性を十分に説明します。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - ERASE: Benchmarking Feature Selection Methods for Deep Recommender Systems [40.838320650137625]
本稿では,Deep Recommender Systems(DRS)のためのフェースセレクションのための包括的bEnchmaRkであるERASEについて述べる。
ERASEは11種類の特徴選択手法を徹底的に評価し、従来のアプローチとディープラーニングアプローチの両方をカバーしている。
私たちのコードは簡単に再現できる。
論文 参考訳(メタデータ) (2024-03-19T11:49:35Z) - Enhanced Bayesian Optimization via Preferential Modeling of Abstract
Properties [49.351577714596544]
本研究では,非測定抽象特性に関する専門家の嗜好を代理モデルに組み込むための,人間とAIの協調型ベイズフレームワークを提案する。
優先判断において、誤った/誤解を招く専門家バイアスを処理できる効率的な戦略を提供する。
論文 参考訳(メタデータ) (2024-02-27T09:23:13Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - CO-BED: Information-Theoretic Contextual Optimization via Bayesian
Experimental Design [31.247108087199095]
CO-BEDは、情報理論の原理を用いて文脈実験を設計するためのモデルに依存しないフレームワークである。
その結果、CO-BEDは、幅広い文脈最適化問題に対して、汎用的で自動化されたソリューションを提供する。
論文 参考訳(メタデータ) (2023-02-27T18:14:13Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - Robust Active Preference Elicitation [10.961537256186498]
ペアワイズ比較クエリを適度に数えることで、意思決定者の好みを抽出する問題について検討する。
私たちは、不足するリソースを割り当てるためのポリシーを選択する場合など、高利害ドメインのアプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2020-03-04T05:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。