Fugu-MT 論文翻訳(概要): Dynamic Bidding Strategies with Multivariate Feedback Control for Multiple Goals in Display Advertising

論文の概要: Dynamic Bidding Strategies with Multivariate Feedback Control for Multiple Goals in Display Advertising

arxiv url: http://arxiv.org/abs/2007.00426v1
Date: Mon, 1 Jun 2020 15:49:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-26 06:42:34.915398
Title: Dynamic Bidding Strategies with Multivariate Feedback Control for Multiple Goals in Display Advertising
Title（参考訳）: 多変量フィードバック制御によるディスプレイ広告における動的入札戦略
Authors: Michael Tashman, Jiayi Xie, John Hoffman, Lee Winikor, Rouzbeh Gerami
Abstract要約: リアルタイム入札 (Real-Time Bidding, RTB) は、数ミリ秒以内のオークションにおいて、ディスプレイ広告の在庫を購入する方法である。 RTBキャンペーンのパフォーマンスは、一般的に一連のキーパフォーマンス指標(KPI)で測定される。本稿では,PIDに基づくフィードバック制御システムを用いて,複数のトラフィックを同時に制御する手法を提案する。オフライン広告入札シミュレーションとライブトラフィックテストの両方において,本手法は複数のトラフィックを同時に制御し,それぞれの目標に向かって誘導する上で有効であることが判明した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-Time Bidding (RTB) display advertising is a method for purchasing display advertising inventory in auctions that occur within milliseconds. The performance of RTB campaigns is generally measured with a series of Key Performance Indicators (KPIs) - measurements used to ensure that the campaign is cost-effective and that it is purchasing valuable inventory. While an RTB campaign should ideally meet all KPIs, simultaneous improvement tends to be very challenging, as an improvement to any one KPI risks a detrimental effect toward the others. Here we present an approach to simultaneously controlling multiple KPIs with a PID-based feedback-control system. This method generates a control score for each KPI, based on both the output of a PID controller module and a metric that quantifies the importance of each KPI for internal business needs. On regular intervals, this algorithm - Sequential Control - will choose the KPI with the greatest overall need for improvement. In this way, our algorithm is able to continually seek the greatest marginal improvements to its current state. Multiple methods of control can be associated with each KPI, and can be triggered either simultaneously or chosen stochastically, in order to avoid local optima. In both offline ad bidding simulations and testing on live traffic, our methods proved to be effective in simultaneously controlling multiple KPIs, and bringing them toward their respective goals.
Abstract（参考訳）: リアルタイム入札(rtb)ディスプレイ広告(英: real-time bidding)は、数ミリ秒以内のオークションでディスプレイ広告インベントリを購入する方法である。 RTBキャンペーンのパフォーマンスは、一般的に一連のキーパフォーマンス指標(KPI)で測定される。 RTBキャンペーンは理想的にはすべてのKPIに適合するべきであるが、一つのKPIの改善は他のKPIに対して有害な影響を及ぼすため、同時改善は非常に困難である。本稿では,PIDに基づくフィードバック制御システムを用いて,複数のKPIを同時に制御する手法を提案する。 PIDコントローラモジュールの出力と、内部ビジネスニーズに対する各KPIの重要性を定量化するメトリックの両方に基づいて、各KPIの制御スコアを生成する。定期的な間隔で、このアルゴリズム - シーケンシャル制御 - は、改善の必要性が最も大きいkpiを選択する。このようにして、我々のアルゴリズムは、その現在の状態に対して最大の限界改善を求めることができる。複数の制御方法は各KPIに関連付けることができ、局所最適を避けるために、同時にあるいは確率的に選択することができる。オフライン広告入札シミュレーションとライブトラフィックのテストの両方において,提案手法は複数のkpiを同時に制御し,それぞれを目標に導くのに有効であることがわかった。

関連論文リスト

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。 GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文参考訳（メタデータ） (2026-01-08T18:59:24Z)
Learning Personalized Ad Impact via Contextual Reinforcement Learning under Delayed Rewards [36.029144318322686]
広告入札をコンテキストマルコフ決定プロセス(CMDP)としてモデル化し,ポアソンの報酬を遅延させる。効率的な推定法として,データ分割戦略と組み合わせた2段階の最大推定器を提案する。我々は、効率的な個人化入札戦略を導出するための強化学習アルゴリズムを設計する。
論文参考訳（メタデータ） (2025-10-22T22:08:36Z)
Autobidding Arena: unified evaluation of the classical and RL-based autobidding algorithms [71.47275796833235]
本稿では,古典的および強化的学習オートバイディングアルゴリズムを比較するための,標準化された透過的評価プロトコルを提案する。我々は、この業界で開発された最新のオープンソース環境を利用して、入札プロセスを正確にエミュレートする。
論文参考訳（メタデータ） (2025-10-22T08:27:56Z)
Multi-task Offline Reinforcement Learning for Online Advertising in Recommender Systems [54.709976343045824]
現在のオフライン強化学習(RL)手法は、スパース広告シナリオに適用した場合、重大な課題に直面している。 MTORLは,2つの主要な目標を対象とする,新しいマルチタスクオフラインRLモデルである。我々はマルチタスク学習を用いて行動と報酬をデコードし、同時にチャネルレコメンデーションと予算配分に対処する。
論文参考訳（メタデータ） (2025-06-29T05:05:13Z)
Real Time Self-Tuning Adaptive Controllers on Temperature Control Loops using Event-based Game Theory [3.156133122658661]
本稿では,イベントベース動的ゲーム理論を用いた産業システムにおけるPID制御の適応性向上手法を提案する。従来の自己学習手法とは対照的に,提案手法はイベント駆動型制御戦略とゲーム理論学習アルゴリズムを提供する。
論文参考訳（メタデータ） (2025-06-16T07:19:46Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文参考訳（メタデータ） (2024-11-20T18:06:55Z)
Multi-Scenario Combination Based on Multi-Agent Reinforcement Learning to Optimize the Advertising Recommendation System [38.501423778989704]
本稿では,異なるシナリオを共通の目的の下で整列するマルチエージェント・リカレント決定性ポリシー勾配(MARDPG)アルゴリズムを提案する。その結果,クリックスルー率 (CTR) , コンバージョン率, 総売上など, 指標の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-07-03T02:33:20Z)
When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文参考訳（メタデータ） (2024-06-03T09:57:18Z)
Distributed-Training-and-Execution Multi-Agent Reinforcement Learning for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文参考訳（メタデータ） (2022-12-15T17:01:56Z)
Policy Search for Model Predictive Control with Application to Agile Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:24Z)
The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。 MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文参考訳（メタデータ） (2021-03-02T18:59:56Z)
Learning over no-Preferred and Preferred Sequence of items for Robust Recommendation [66.8722561224499]
暗黙のフィードバックよりも大規模なレコメンダーシステム(RS)を訓練するための理論的に確立されたシーケンシャル戦略を提案する。本稿では、モデルパラメータをモメンタリメソッドまたはグラデーションベースのアプローチで更新するこの戦略の2つのバリエーションを紹介します。
論文参考訳（メタデータ） (2020-12-12T22:10:15Z)
Deep Controlled Learning for Inventory Control [0.0]
Controlled Deep Learning (DCL)は、在庫問題に対処するために特別に設計された近似ポリシーに基づく新しいDRLフレームワークである。 DCLは、失われた在庫管理、分かりやすい在庫システム、そして無作為なリードタイムで在庫システムにおいて、既存の最先端のイテレーションを上回ります。これらの大幅な性能改善とロバスト性改善は、在庫管理問題に適合したDRLアルゴリズムを効果的に適用する道を開く。
論文参考訳（メタデータ） (2020-11-30T18:53:08Z)
Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文参考訳（メタデータ） (2020-03-31T20:43:28Z)
MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding [47.555870679348416]
そこで本研究では,MoTiACというマルチエクティブ・アクタ・クリティカルスアルゴリズムを提案する。従来のRLモデルとは異なり、提案されたMoTiACは複雑な入札環境で同時に多目的タスクを達成できる。
論文参考訳（メタデータ） (2020-02-18T07:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。