論文の概要: Exploration in Online Advertising Systems with Deep Uncertainty-Aware
Learning
- arxiv url: http://arxiv.org/abs/2012.02298v2
- Date: Tue, 15 Jun 2021 06:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:58:02.787734
- Title: Exploration in Online Advertising Systems with Deep Uncertainty-Aware
Learning
- Title(参考訳): 深層不確実性学習によるオンライン広告システムの探索
- Authors: Chao Du, Zhifeng Gao, Shuo Yuan, Lining Gao, Ziyan Li, Yifan Zeng,
Xiaoqiang Zhu, Jian Xu, Kun Gai, Kuang-chih Lee
- Abstract要約: 本稿では,クリックスルー率(CTR)予測モデルを学習するための新しいDeep Uncertainty-Aware Learning(DUAL)手法を提案する。
DUALは既存のモデルに簡単に実装でき、最小限の計算オーバーヘッドでリアルタイムシステムにデプロイできる。
また、広告システムにおける社会福祉等の長期的なユーティリティ向上戦略も提示する。
- 参考スコア(独自算出の注目度): 26.24464382500032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern online advertising systems inevitably rely on personalization methods,
such as click-through rate (CTR) prediction. Recent progress in CTR prediction
enjoys the rich representation capabilities of deep learning and achieves great
success in large-scale industrial applications. However, these methods can
suffer from lack of exploration. Another line of prior work addresses the
exploration-exploitation trade-off problem with contextual bandit methods,
which are recently less studied in the industry due to the difficulty in
extending their flexibility with deep models. In this paper, we propose a novel
Deep Uncertainty-Aware Learning (DUAL) method to learn CTR models based on
Gaussian processes, which can provide predictive uncertainty estimations while
maintaining the flexibility of deep neural networks. DUAL can be easily
implemented on existing models and deployed in real-time systems with minimal
extra computational overhead. By linking the predictive uncertainty estimation
ability of DUAL to well-known bandit algorithms, we further present DUAL-based
Ad-ranking strategies to boost up long-term utilities such as the social
welfare in advertising systems. Experimental results on several public datasets
demonstrate the effectiveness of our methods. Remarkably, an online A/B test
deployed in the Alibaba display advertising platform shows an 8.2% social
welfare improvement and an 8.0% revenue lift.
- Abstract(参考訳): 現代のオンライン広告システムは、クリックスルー率(CTR)予測のようなパーソナライズ手法に必然的に依存している。
近年のCTR予測の進歩は、ディープラーニングの豊かな表現能力を享受し、大規模産業アプリケーションにおいて大きな成功を収めている。
しかし、これらの方法は探検の欠如に苦しむことがある。
先行研究のもう1つの行は、深層モデルによる柔軟性の拡張が困難であるため、最近は業界であまり研究されていないコンテキスト的バンディット手法による探索・探索トレードオフ問題に対処している。
本稿では,ニューラルネットワークの柔軟性を維持しつつ予測的不確実性推定を可能にするガウス過程に基づくctrモデルを学ぶための,新しい深層不確実性認識学習(dual)手法を提案する。
DUALは既存のモデルに簡単に実装でき、最小限の計算オーバーヘッドでリアルタイムシステムにデプロイできる。
さらに, 広告システムにおける社会的福祉などの長期的効用を高めるために, DUALの予測不確実性推定能力とよく知られたバンディットアルゴリズムを結びつけることによって, DUALベースの広告グレード戦略を提示する。
いくつかの公開データセットに対する実験結果から,本手法の有効性が示された。
アリババのディスプレイ広告プラットフォームに展開されたオンラインA/Bテストでは、社会福祉の改善が8.2%、収益が8.0%となっている。
関連論文リスト
- Detecting Toxic Flow [0.40964539027092917]
本稿では,ブローカーが顧客から受ける有害取引を予測する枠組みを開発する。
我々は、我々の方法論をテストするために、外国為替取引のプロプライエタリなデータセットを使用します。
顧客から受け取った取引の内面化や外部化のために毒性予測を利用するブローカーのための戦略を考案する。
論文 参考訳(メタデータ) (2023-12-10T09:00:09Z) - Predicted Embedding Power Regression for Large-Scale Out-of-Distribution
Detection [77.1596426383046]
本研究では,学習過程において学習したラベル分布に基づいて,予測されたクラスラベルの確率を計算する手法を開発した。
提案手法は,計算コストの最小化のみで,現在の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-03-07T18:28:39Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - Adversarial Gradient Driven Exploration for Deep Click-Through Rate
Prediction [39.61776002290324]
textbfAdrial textbfGradientversa Driven textbfExploration (AGE) と呼ばれる新しい探索手法を提案する。
AGEは勾配更新プロセスをシミュレートし、モデルに対する探索項目のサンプルの影響を近似することができる。
本手法の有効性を,オープンアクセス学術データセットで実証した。
論文 参考訳(メタデータ) (2021-12-21T12:13:07Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Deep Bayesian Bandits: Exploring in Online Personalized Recommendations [4.845576821204241]
我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
論文 参考訳(メタデータ) (2020-08-03T08:58:18Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Debiased Off-Policy Evaluation for Recommendation Systems [8.63711086812655]
A/Bテストは信頼できるが、時間と費用がかかり、失敗のリスクが伴う。
提案手法は,履歴データに対するアルゴリズムの性能を推定する手法である。
提案手法は,最先端手法よりも平均2乗誤差が小さい。
論文 参考訳(メタデータ) (2020-02-20T02:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。