論文の概要: Functional Optimization Reinforcement Learning for Real-Time Bidding
- arxiv url: http://arxiv.org/abs/2206.13939v1
- Date: Sat, 25 Jun 2022 06:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 12:31:59.953665
- Title: Functional Optimization Reinforcement Learning for Real-Time Bidding
- Title(参考訳): リアルタイム入札のための機能最適化強化学習
- Authors: Yining Lu, Changjie Lu, Naina Bandyopadhyay, Manoj Kumar, Gaurav Gupta
- Abstract要約: リアルタイム入札はプログラム広告の新しいパラダイムである。
既存のアプローチは、入札最適化に十分なソリューションを提供するのに苦労しています。
本稿では,機能最適化を伴うRTBのためのマルチエージェント強化学習アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 14.5826735379053
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-time bidding is the new paradigm of programmatic advertising. An
advertiser wants to make the intelligent choice of utilizing a
\textbf{Demand-Side Platform} to improve the performance of their ad campaigns.
Existing approaches are struggling to provide a satisfactory solution for
bidding optimization due to stochastic bidding behavior. In this paper, we
proposed a multi-agent reinforcement learning architecture for RTB with
functional optimization. We designed four agents bidding environment: three
Lagrange-multiplier based functional optimization agents and one baseline agent
(without any attribute of functional optimization) First, numerous attributes
have been assigned to each agent, including biased or unbiased win probability,
Lagrange multiplier, and click-through rate. In order to evaluate the proposed
RTB strategy's performance, we demonstrate the results on ten sequential
simulated auction campaigns. The results show that agents with functional
actions and rewards had the most significant average winning rate and winning
surplus, given biased and unbiased winning information respectively. The
experimental evaluations show that our approach significantly improve the
campaign's efficacy and profitability.
- Abstract(参考訳): リアルタイム入札はプログラム広告の新しいパラダイムである。
広告主は、広告キャンペーンのパフォーマンスを改善するために、‘textbf{Demand-Side Platform}’を利用するインテリジェントな選択をしたい。
既存のアプローチは,確率的入札行動による入札最適化に対する満足度の高いソリューションの提供に苦慮している。
本稿では,機能最適化を用いたRTBのためのマルチエージェント強化学習アーキテクチャを提案する。
3つのラグランジュ乗算器に基づく機能最適化エージェントと1つのベースラインエージェント(機能最適化の属性なし) 第一に、偏りや偏りのない勝利確率、ラグランジュ乗算器、クリックスルー率を含む多くの属性が各エージェントに割り当てられている。
提案したRTB戦略の性能を評価するため,10件の連続模擬オークションキャンペーンの結果を実証した。
その結果、機能行動と報酬を持つエージェントは、偏りのある情報と偏りのない情報から、最も有意な平均勝利率と勝利余剰率を示した。
実験の結果,本手法はキャンペーンの有効性と収益性を大幅に向上させることがわかった。
関連論文リスト
- Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - Fair Allocation in Dynamic Mechanism Design [57.66441610380448]
競売業者が各ラウンドの買い手グループに、合計で$T$で分けない商品を販売している問題を考える。
競売人は、各グループの最低平均配分を保証する公正な制約に固執しつつ、割引された全体の収益を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-05-31T19:26:05Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Maximizing the Success Probability of Policy Allocations in Online
Systems [5.485872703839928]
本稿では,個々の入札要求ではなく,ユーザタイムラインのレベルでの問題を検討する。
ユーザに対してポリシーを最適に割り当てるために、典型的な複数の処理割り当て手法は、knapsackのような問題を解決する。
本稿では,政策アロケーションの探索を目的としたSuccessProMaxアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2023-12-26T10:55:33Z) - DeepHive: A multi-agent reinforcement learning approach for automated
discovery of swarm-based optimization policies [0.0]
Swarm内の各エージェントの状態は、設計空間内の現在の位置と関数値として定義される。
提案手法は,様々なベンチマーク最適化関数を用いて検証し,他のグローバル最適化手法との比較を行った。
論文 参考訳(メタデータ) (2023-03-29T18:08:08Z) - Non-Myopic Multifidelity Bayesian Optimization [0.0]
本稿では,この最適化の今後のステップから長期報酬を把握するための,非筋電多忠実ベイズフレームワークを提案する。
提案アルゴリズムは,一般的なベンチマーク最適化問題において,標準的なマルチ忠実ベイズフレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-13T16:25:35Z) - A Unified Framework for Campaign Performance Forecasting in Online
Display Advertising [9.005665883444902]
解釈可能で正確な結果により、広告主はキャンペーン基準を管理し、最適化することができる。
新しいフレームワークは、様々な入札型の下で履歴ログのキャンペーンパフォーマンスを統一的なリプレイアルゴリズムで再現する。
手法は、関連する予測指標間の混合キャリブレーションパターンをキャプチャして、推定結果を真にマッピングする。
論文 参考訳(メタデータ) (2022-02-24T03:04:29Z) - Bid Optimization using Maximum Entropy Reinforcement Learning [0.3149883354098941]
本稿では、リアルタイム入札(RTB)における強化学習(RL)を用いた広告主の入札戦略の最適化に焦点をあてる。
まず、広く受け入れられている線形入札関数を用いて、すべての印象のベース価格を計算し、RTBオークション環境から派生した可変調整係数で最適化する。
最後に、公開データセットに関する実証的研究により、提案した入札戦略がベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-10-11T06:53:53Z) - A Cooperative-Competitive Multi-Agent Framework for Auto-bidding in
Online Advertising [53.636153252400945]
本稿では,自動入札のための総合的マルチエージェント強化学習フレームワーク,すなわちMAABを提案し,自動入札戦略を学習する。
当社のアプローチは、社会的福祉の観点から、いくつかの基準的手法を上回り、広告プラットフォームの収益を保証します。
論文 参考訳(メタデータ) (2021-06-11T08:07:14Z) - Are we Forgetting about Compositional Optimisers in Bayesian
Optimisation? [66.39551991177542]
本稿では,グローバル最適化のためのサンプル手法を提案する。
この中、重要なパフォーマンス決定の自明さは、取得機能を最大化することです。
3958実験における機能最適化手法の実証的利点を強調する。
論文 参考訳(メタデータ) (2020-12-15T12:18:38Z) - Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential
Advertising [52.3825928886714]
我々は、動的knapsack問題として、シーケンシャルな広告戦略最適化を定式化する。
理論的に保証された二段階最適化フレームワークを提案し、元の最適化空間の解空間を大幅に削減する。
強化学習の探索効率を向上させるため,効果的な行動空間削減手法も考案した。
論文 参考訳(メタデータ) (2020-06-29T18:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。