論文の概要: Optimizing AD Pruning of Sponsored Search with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.02014v1
- Date: Wed, 5 Aug 2020 09:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 17:44:28.640852
- Title: Optimizing AD Pruning of Sponsored Search with Reinforcement Learning
- Title(参考訳): 強化学習によるスポンサー検索のADプルーニング最適化
- Authors: Yijiang Lian, Zhijie Chen, Xin Pei, Shuang Li, Yifei Wang, Yuefeng
Qiu, Zhiheng Zhang, Zhipeng Tao, Liang Yuan, Hanju Guan, Kefeng Zhang,
Zhigang Li, Xiaochun Liu
- Abstract要約: 産業支援検索システム(SSS)は,キーワードマッチング,広告検索,ランキングの3つのモジュールに論理的に分割することができる。
システム収益を最大化するために、$N$候補から最高の$K$アイテムをどうやって取り出すか、という問題に対処します。
本稿では,この問題を解決するためのモデルなし強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 14.583308909225552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial sponsored search system (SSS) can be logically divided into three
modules: keywords matching, ad retrieving, and ranking. During ad retrieving,
the ad candidates grow exponentially. A query with high commercial value might
retrieve a great deal of ad candidates such that the ranking module could not
afford. Due to limited latency and computing resources, the candidates have to
be pruned earlier. Suppose we set a pruning line to cut SSS into two parts:
upstream and downstream. The problem we are going to address is: how to pick
out the best $K$ items from $N$ candidates provided by the upstream to maximize
the total system's revenue. Since the industrial downstream is very complicated
and updated quickly, a crucial restriction in this problem is that the
selection scheme should get adapted to the downstream. In this paper, we
propose a novel model-free reinforcement learning approach to fixing this
problem. Our approach considers downstream as a black-box environment, and the
agent sequentially selects items and finally feeds into the downstream, where
revenue would be estimated and used as a reward to improve the selection
policy. To the best of our knowledge, this is first time to consider the system
optimization from a downstream adaption view. It is also the first time to use
reinforcement learning techniques to tackle this problem. The idea has been
successfully realized in Baidu's sponsored search system, and online long time
A/B test shows remarkable improvements on revenue.
- Abstract(参考訳): 産業支援検索システム(SSS)は,キーワードマッチング,広告検索,ランキングの3つのモジュールに論理的に分割することができる。
広告検索中、広告候補は指数関数的に増加する。
高い商業価値のクエリは、ランク付けモジュールに余裕がないような多くの広告候補を取得する可能性がある。
レイテンシとコンピューティングリソースが限られているため、候補は早く刈り取らなければならない。
SSSを上流と下流の2つの部分に分割するプルーニングラインを設定しよう。
システム全体の収益を最大化するために、上流から提供された$N$候補から、最高の$K$アイテムをどうやって取り出すか、という問題に対処します。
産業下流は非常に複雑で迅速に更新されるため、この問題における重要な制限は、選択スキームを下流に適応させることである。
本稿では,この問題を解決するためのモデルなし強化学習手法を提案する。
提案手法は,下流をブラックボックス環境とみなし,エージェントがアイテムを順次選択し,最終的に下流に供給し,収益を推定し,選択政策を改善するための報酬として利用する。
私たちの知る限りでは、下流の適応の観点からシステムの最適化を考えるのはこれが初めてです。
この問題を解決するために強化学習技術を使うのも、今回が初めてだ。
このアイデアはBaiduのスポンサー付き検索システムで成功しており、オンラインの長期A/Bテストでは収益が著しく改善されている。
関連論文リスト
- Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - Selling Joint Ads: A Regret Minimization Perspective [7.288063443108292]
オンライン小売によるモチベーションにより、一品(広告スロットなど)を2つの非排除購入者(商店、ブランド等)に販売する問題を考える。
この問題は、例えば、マーチャントとブランドが商品を宣伝するために競売に協力して入札する状況と、表示されている広告の恩恵を捉えている。
メカニズムは2つの入札を収集し、どちらを割り当てるか、どの支払いを行うかを決定する。
論文 参考訳(メタデータ) (2024-09-12T07:59:10Z) - MOBIUS: Towards the Next Generation of Query-Ad Matching in Baidu's Sponsored Search [27.752810150893552]
Mobiusプロジェクトは、クエリ-ad関連性に加えて、CPMをさらなる最適化目標として考えるために、マッチングレイヤをトレーニングすることを目的としている。
本稿では、マッチング層におけるクリック履歴の欠如を克服するために、アクティブラーニングをどのように導入するかについて詳述する。
次世代クエリ-アドマッチングシステムの最初のバージョンとしてMobius-V1にソリューションをコントリビュートする。
論文 参考訳(メタデータ) (2024-09-05T11:56:40Z) - Misalignment, Learning, and Ranking: Harnessing Users Limited Attention [16.74322664734553]
本稿では,最適ベンチマークに対する後悔を解消するオンラインアルゴリズムの設計について検討する。
逆オンライン線形最適化の標準的なアルゴリズムは、$O(sqrtT)$ regretのペイオフ時間アルゴリズムを得るためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2024-02-21T18:52:20Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Search and Score-Based Waterfall Auction Optimization [0.7734726150561088]
可能なウォーターフォールの空間を賢明に検索し、最高の収入につながるウォーターフォールを選択することで、歴史的なデータからウォーターフォール戦略を学ぶ。
私たちのフレームワークは、局所的な最適化に収束するまでのイテレーション間のウォーターフォール収益が向上することを保証します。
論文 参考訳(メタデータ) (2022-01-17T13:59:12Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - A novel auction system for selecting advertisements in Real-Time bidding [68.8204255655161]
リアルタイム入札(Real-Time Bidding)は、インターネット広告システムで、近年非常に人気を集めている。
本稿では、経済的な側面だけでなく、広告システムの機能にかかわる他の要因も考慮した、新たなアプローチによる代替ベッティングシステムを提案する。
論文 参考訳(メタデータ) (2020-10-22T18:36:41Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential
Advertising [52.3825928886714]
我々は、動的knapsack問題として、シーケンシャルな広告戦略最適化を定式化する。
理論的に保証された二段階最適化フレームワークを提案し、元の最適化空間の解空間を大幅に削減する。
強化学習の探索効率を向上させるため,効果的な行動空間削減手法も考案した。
論文 参考訳(メタデータ) (2020-06-29T18:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。