論文の概要: Maximizing the Success Probability of Policy Allocations in Online
Systems
- arxiv url: http://arxiv.org/abs/2312.16267v1
- Date: Tue, 26 Dec 2023 10:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:18:16.176554
- Title: Maximizing the Success Probability of Policy Allocations in Online
Systems
- Title(参考訳): オンラインシステムにおける政策割り当ての成功確率の最大化
- Authors: Artem Betlei, Mariia Vladimirova, Mehdi Sebbar, Nicolas Urien, Thibaud
Rahier, Benjamin Heymann
- Abstract要約: 本稿では,個々の入札要求ではなく,ユーザタイムラインのレベルでの問題を検討する。
ユーザに対してポリシーを最適に割り当てるために、典型的な複数の処理割り当て手法は、knapsackのような問題を解決する。
本稿では,政策アロケーションの探索を目的としたSuccessProMaxアルゴリズムについて紹介する。
- 参考スコア(独自算出の注目度): 5.485872703839928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of advertising in e-commerce largely depends on the ability
of merchants to bid on and win impressions for their targeted users. The
bidding procedure is highly complex due to various factors such as market
competition, user behavior, and the diverse objectives of advertisers. In this
paper we consider the problem at the level of user timelines instead of
individual bid requests, manipulating full policies (i.e. pre-defined bidding
strategies) and not bid values. In order to optimally allocate policies to
users, typical multiple treatments allocation methods solve knapsack-like
problems which aim at maximizing an expected value under constraints. In the
industrial contexts such as online advertising, we argue that optimizing for
the probability of success is a more suited objective than expected value
maximization, and we introduce the SuccessProbaMax algorithm that aims at
finding the policy allocation which is the most likely to outperform a fixed
reference policy. Finally, we conduct comprehensive experiments both on
synthetic and real-world data to evaluate its performance. The results
demonstrate that our proposed algorithm outperforms conventional expected-value
maximization algorithms in terms of success rate.
- Abstract(参考訳): eコマースにおける広告の効果は、主に販売業者がターゲットユーザーのインプレッションを入札し、勝ち取る能力に依存している。
入札手続きは、市場競争、ユーザー行動、広告主の多様な目的など様々な要因により、非常に複雑である。
本稿では,個々の入札要求ではなく,ユーザのタイムラインのレベルでの問題を検討し,入札価格ではなく,完全なポリシー(事前定義された入札戦略)を操作する。
ユーザのポリシーを最適にアロケートするために、典型的な多重処理のアロケート手法は、制約下で期待値の最大化を目的としたナップサックのような問題を解決する。
オンライン広告のような産業的な文脈では、成功の可能性に対する最適化は、期待値の最大化よりも適した目標であり、我々は、固定参照ポリシーを上回る可能性のあるポリシー割り当てを見つけることを目的としたsuccessprobamaxアルゴリズムを導入する。
最後に,合成データと実世界のデータを用いて総合的な実験を行い,その性能を評価する。
その結果,提案アルゴリズムは従来の期待値最大化アルゴリズムよりも成功率が高いことがわかった。
関連論文リスト
- Targeted Advertising on Social Networks Using Online Variational Tensor
Regression [19.586412285513962]
我々は、オンラインターゲティング広告のための最初の文脈的盗賊フレームワークであると考えるものを提案する。
提案するフレームワークは,多モードテンソルの形で,任意の特徴ベクトルに対応するように設計されている。
提案したUCBアルゴリズムは,ベンチマークによる影響タスクの大幅な改善を実現することを実証的に確認する。
論文 参考訳(メタデータ) (2022-08-22T22:10:45Z) - Functional Optimization Reinforcement Learning for Real-Time Bidding [14.5826735379053]
リアルタイム入札はプログラム広告の新しいパラダイムである。
既存のアプローチは、入札最適化に十分なソリューションを提供するのに苦労しています。
本稿では,機能最適化を伴うRTBのためのマルチエージェント強化学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-25T06:12:17Z) - A Unified Framework for Campaign Performance Forecasting in Online
Display Advertising [9.005665883444902]
解釈可能で正確な結果により、広告主はキャンペーン基準を管理し、最適化することができる。
新しいフレームワークは、様々な入札型の下で履歴ログのキャンペーンパフォーマンスを統一的なリプレイアルゴリズムで再現する。
手法は、関連する予測指標間の混合キャリブレーションパターンをキャプチャして、推定結果を真にマッピングする。
論文 参考訳(メタデータ) (2022-02-24T03:04:29Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential
Advertising [52.3825928886714]
我々は、動的knapsack問題として、シーケンシャルな広告戦略最適化を定式化する。
理論的に保証された二段階最適化フレームワークを提案し、元の最適化空間の解空間を大幅に削減する。
強化学習の探索効率を向上させるため,効果的な行動空間削減手法も考案した。
論文 参考訳(メタデータ) (2020-06-29T18:50:35Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z) - Toward Optimal Adversarial Policies in the Multiplicative Learning
System with a Malicious Expert [87.12201611818698]
専門家のアドバイスを組み合わせて真の結果を予測する学習システムについて考察する。
専門家の一人が悪意があり、システムに最大損失を課すことを目指していると推測されている。
誤予測を常に報告する単純な欲求ポリシーは、近似比が1+O(sqrtfracln NN)$で最適であることを示す。
悪意のある専門家がその判断を適応的に行うことができるオンライン環境では、最適のオンラインポリシーを$O(N3)$で動的プログラムを解くことで効率的に計算できることが示される。
論文 参考訳(メタデータ) (2020-01-02T18:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。