論文の概要: Dynamic Bidding Strategies with Multivariate Feedback Control for
Multiple Goals in Display Advertising
- arxiv url: http://arxiv.org/abs/2007.00426v1
- Date: Mon, 1 Jun 2020 15:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:42:34.915398
- Title: Dynamic Bidding Strategies with Multivariate Feedback Control for
Multiple Goals in Display Advertising
- Title(参考訳): 多変量フィードバック制御によるディスプレイ広告における動的入札戦略
- Authors: Michael Tashman, Jiayi Xie, John Hoffman, Lee Winikor, Rouzbeh Gerami
- Abstract要約: リアルタイム入札 (Real-Time Bidding, RTB) は、数ミリ秒以内のオークションにおいて、ディスプレイ広告の在庫を購入する方法である。
RTBキャンペーンのパフォーマンスは、一般的に一連のキーパフォーマンス指標(KPI)で測定される。
本稿では,PIDに基づくフィードバック制御システムを用いて,複数のトラフィックを同時に制御する手法を提案する。
オフライン広告入札シミュレーションとライブトラフィックテストの両方において,本手法は複数のトラフィックを同時に制御し,それぞれの目標に向かって誘導する上で有効であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-Time Bidding (RTB) display advertising is a method for purchasing
display advertising inventory in auctions that occur within milliseconds. The
performance of RTB campaigns is generally measured with a series of Key
Performance Indicators (KPIs) - measurements used to ensure that the campaign
is cost-effective and that it is purchasing valuable inventory. While an RTB
campaign should ideally meet all KPIs, simultaneous improvement tends to be
very challenging, as an improvement to any one KPI risks a detrimental effect
toward the others. Here we present an approach to simultaneously controlling
multiple KPIs with a PID-based feedback-control system. This method generates a
control score for each KPI, based on both the output of a PID controller module
and a metric that quantifies the importance of each KPI for internal business
needs. On regular intervals, this algorithm - Sequential Control - will choose
the KPI with the greatest overall need for improvement. In this way, our
algorithm is able to continually seek the greatest marginal improvements to its
current state. Multiple methods of control can be associated with each KPI, and
can be triggered either simultaneously or chosen stochastically, in order to
avoid local optima. In both offline ad bidding simulations and testing on live
traffic, our methods proved to be effective in simultaneously controlling
multiple KPIs, and bringing them toward their respective goals.
- Abstract(参考訳): リアルタイム入札(rtb)ディスプレイ広告(英: real-time bidding)は、数ミリ秒以内のオークションでディスプレイ広告インベントリを購入する方法である。
RTBキャンペーンのパフォーマンスは、一般的に一連のキーパフォーマンス指標(KPI)で測定される。
RTBキャンペーンは理想的にはすべてのKPIに適合するべきであるが、一つのKPIの改善は他のKPIに対して有害な影響を及ぼすため、同時改善は非常に困難である。
本稿では,PIDに基づくフィードバック制御システムを用いて,複数のKPIを同時に制御する手法を提案する。
PIDコントローラモジュールの出力と、内部ビジネスニーズに対する各KPIの重要性を定量化するメトリックの両方に基づいて、各KPIの制御スコアを生成する。
定期的な間隔で、このアルゴリズム - シーケンシャル制御 - は、改善の必要性が最も大きいkpiを選択する。
このようにして、我々のアルゴリズムは、その現在の状態に対して最大の限界改善を求めることができる。
複数の制御方法は各KPIに関連付けることができ、局所最適を避けるために、同時にあるいは確率的に選択することができる。
オフライン広告入札シミュレーションとライブトラフィックのテストの両方において,提案手法は複数のkpiを同時に制御し,それぞれを目標に導くのに有効であることがわかった。
関連論文リスト
- Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - Multi-Scenario Combination Based on Multi-Agent Reinforcement Learning to Optimize the Advertising Recommendation System [38.501423778989704]
本稿では,異なるシナリオを共通の目的の下で整列するマルチエージェント・リカレント決定性ポリシー勾配(MARDPG)アルゴリズムを提案する。
その結果,クリックスルー率 (CTR) , コンバージョン率, 総売上など, 指標の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-07-03T02:33:20Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Learning over no-Preferred and Preferred Sequence of items for Robust
Recommendation [66.8722561224499]
暗黙のフィードバックよりも大規模なレコメンダーシステム(RS)を訓練するための理論的に確立されたシーケンシャル戦略を提案する。
本稿では、モデルパラメータをモメンタリメソッドまたはグラデーションベースのアプローチで更新するこの戦略の2つのバリエーションを紹介します。
論文 参考訳(メタデータ) (2020-12-12T22:10:15Z) - Deep Controlled Learning for Inventory Control [0.0]
Controlled Deep Learning (DCL)は、在庫問題に対処するために特別に設計された近似ポリシーに基づく新しいDRLフレームワークである。
DCLは、失われた在庫管理、分かりやすい在庫システム、そして無作為なリードタイムで在庫システムにおいて、既存の最先端のイテレーションを上回ります。
これらの大幅な性能改善とロバスト性改善は、在庫管理問題に適合したDRLアルゴリズムを効果的に適用する道を開く。
論文 参考訳(メタデータ) (2020-11-30T18:53:08Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z) - MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding [47.555870679348416]
そこで本研究では,MoTiACというマルチエクティブ・アクタ・クリティカルスアルゴリズムを提案する。
従来のRLモデルとは異なり、提案されたMoTiACは複雑な入札環境で同時に多目的タスクを達成できる。
論文 参考訳(メタデータ) (2020-02-18T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。