論文の概要: Dynamic Bidding Strategies with Multivariate Feedback Control for
Multiple Goals in Display Advertising
- arxiv url: http://arxiv.org/abs/2007.00426v1
- Date: Mon, 1 Jun 2020 15:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:42:34.915398
- Title: Dynamic Bidding Strategies with Multivariate Feedback Control for
Multiple Goals in Display Advertising
- Title(参考訳): 多変量フィードバック制御によるディスプレイ広告における動的入札戦略
- Authors: Michael Tashman, Jiayi Xie, John Hoffman, Lee Winikor, Rouzbeh Gerami
- Abstract要約: リアルタイム入札 (Real-Time Bidding, RTB) は、数ミリ秒以内のオークションにおいて、ディスプレイ広告の在庫を購入する方法である。
RTBキャンペーンのパフォーマンスは、一般的に一連のキーパフォーマンス指標(KPI)で測定される。
本稿では,PIDに基づくフィードバック制御システムを用いて,複数のトラフィックを同時に制御する手法を提案する。
オフライン広告入札シミュレーションとライブトラフィックテストの両方において,本手法は複数のトラフィックを同時に制御し,それぞれの目標に向かって誘導する上で有効であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-Time Bidding (RTB) display advertising is a method for purchasing
display advertising inventory in auctions that occur within milliseconds. The
performance of RTB campaigns is generally measured with a series of Key
Performance Indicators (KPIs) - measurements used to ensure that the campaign
is cost-effective and that it is purchasing valuable inventory. While an RTB
campaign should ideally meet all KPIs, simultaneous improvement tends to be
very challenging, as an improvement to any one KPI risks a detrimental effect
toward the others. Here we present an approach to simultaneously controlling
multiple KPIs with a PID-based feedback-control system. This method generates a
control score for each KPI, based on both the output of a PID controller module
and a metric that quantifies the importance of each KPI for internal business
needs. On regular intervals, this algorithm - Sequential Control - will choose
the KPI with the greatest overall need for improvement. In this way, our
algorithm is able to continually seek the greatest marginal improvements to its
current state. Multiple methods of control can be associated with each KPI, and
can be triggered either simultaneously or chosen stochastically, in order to
avoid local optima. In both offline ad bidding simulations and testing on live
traffic, our methods proved to be effective in simultaneously controlling
multiple KPIs, and bringing them toward their respective goals.
- Abstract(参考訳): リアルタイム入札(rtb)ディスプレイ広告(英: real-time bidding)は、数ミリ秒以内のオークションでディスプレイ広告インベントリを購入する方法である。
RTBキャンペーンのパフォーマンスは、一般的に一連のキーパフォーマンス指標(KPI)で測定される。
RTBキャンペーンは理想的にはすべてのKPIに適合するべきであるが、一つのKPIの改善は他のKPIに対して有害な影響を及ぼすため、同時改善は非常に困難である。
本稿では,PIDに基づくフィードバック制御システムを用いて,複数のKPIを同時に制御する手法を提案する。
PIDコントローラモジュールの出力と、内部ビジネスニーズに対する各KPIの重要性を定量化するメトリックの両方に基づいて、各KPIの制御スコアを生成する。
定期的な間隔で、このアルゴリズム - シーケンシャル制御 - は、改善の必要性が最も大きいkpiを選択する。
このようにして、我々のアルゴリズムは、その現在の状態に対して最大の限界改善を求めることができる。
複数の制御方法は各KPIに関連付けることができ、局所最適を避けるために、同時にあるいは確率的に選択することができる。
オフライン広告入札シミュレーションとライブトラフィックのテストの両方において,提案手法は複数のkpiを同時に制御し,それぞれを目標に導くのに有効であることがわかった。
関連論文リスト
- Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Optimization of the Model Predictive Control Meta-Parameters Through
Reinforcement Learning [1.4069478981641936]
強化学習(RL)を用いて制御アルゴリズムの任意のパラメータを協調的に調整できる新しいフレームワークを提案する。
我々は,倒立振子制御タスクの枠組みを実証し,制御システムの総時間を36%削減するとともに,最高性能のMPCベースラインよりも18.4%向上した。
論文 参考訳(メタデータ) (2021-11-07T18:33:22Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Learning over no-Preferred and Preferred Sequence of items for Robust
Recommendation [66.8722561224499]
暗黙のフィードバックよりも大規模なレコメンダーシステム(RS)を訓練するための理論的に確立されたシーケンシャル戦略を提案する。
本稿では、モデルパラメータをモメンタリメソッドまたはグラデーションベースのアプローチで更新するこの戦略の2つのバリエーションを紹介します。
論文 参考訳(メタデータ) (2020-12-12T22:10:15Z) - Deep Controlled Learning for Inventory Control [0.0]
Controlled Deep Learning (DCL)は、在庫問題に対処するために特別に設計された近似ポリシーに基づく新しいDRLフレームワークである。
DCLは、失われた在庫管理、分かりやすい在庫システム、そして無作為なリードタイムで在庫システムにおいて、既存の最先端のイテレーションを上回ります。
これらの大幅な性能改善とロバスト性改善は、在庫管理問題に適合したDRLアルゴリズムを効果的に適用する道を開く。
論文 参考訳(メタデータ) (2020-11-30T18:53:08Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z) - MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding [47.555870679348416]
そこで本研究では,MoTiACというマルチエクティブ・アクタ・クリティカルスアルゴリズムを提案する。
従来のRLモデルとは異なり、提案されたMoTiACは複雑な入札環境で同時に多目的タスクを達成できる。
論文 参考訳(メタデータ) (2020-02-18T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。