論文の概要: Offline Reinforcement Learning for Optimizing Production Bidding
Policies
- arxiv url: http://arxiv.org/abs/2310.09426v1
- Date: Fri, 13 Oct 2023 22:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 20:32:39.555282
- Title: Offline Reinforcement Learning for Optimizing Production Bidding
Policies
- Title(参考訳): 生産入札ポリシー最適化のためのオフライン強化学習
- Authors: Dmytro Korenkevych, Frank Cheng, Artsiom Balakir, Alex Nikulkov,
Lingnan Gao, Zhihao Cen, Zuobing Xu, Zheqing Zhu
- Abstract要約: 生産環境における入札ポリシーを最適化するための一般化可能なアプローチを提案する。
任意のベースポリシとディープニューラルネットワークを組み合わせたハイブリッドエージェントアーキテクチャを使用します。
このようなアーキテクチャは,シミュレーションおよび大規模生産入札環境において,統計的に有意な性能向上を達成できることを実証する。
- 参考スコア(独自算出の注目度): 1.8689461238197953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The online advertising market, with its thousands of auctions run per second,
presents a daunting challenge for advertisers who wish to optimize their spend
under a budget constraint. Thus, advertising platforms typically provide
automated agents to their customers, which act on their behalf to bid for
impression opportunities in real time at scale. Because these proxy agents are
owned by the platform but use advertiser funds to operate, there is a strong
practical need to balance reliability and explainability of the agent with
optimizing power. We propose a generalizable approach to optimizing bidding
policies in production environments by learning from real data using offline
reinforcement learning. This approach can be used to optimize any
differentiable base policy (practically, a heuristic policy based on principles
which the advertiser can easily understand), and only requires data generated
by the base policy itself. We use a hybrid agent architecture that combines
arbitrary base policies with deep neural networks, where only the optimized
base policy parameters are eventually deployed, and the neural network part is
discarded after training. We demonstrate that such an architecture achieves
statistically significant performance gains in both simulated and at-scale
production bidding environments. Our approach does not incur additional
infrastructure, safety, or explainability costs, as it directly optimizes
parameters of existing production routines without replacing them with black
box-style models like neural networks.
- Abstract(参考訳): オンライン広告市場は、1秒間に数千回のオークションが開催されているが、予算制約の下で支出を最適化したい広告主にとっては恐ろしい課題だ。
したがって、広告プラットフォームは通常、顧客に自動エージェントを提供し、顧客に代わって行動し、大規模なインプレッション機会をリアルタイムで競う。
これらのプロキシエージェントはプラットフォームによって所有されているが、運用には広告主の資金を使用するため、エージェントの信頼性と説明可能性のバランスを最適化する必要性が強い。
オフライン強化学習を用いて実データから学習することで,生産環境における入札ポリシーを最適化するための一般化可能なアプローチを提案する。
このアプローチは、任意の差別化可能なベースポリシー(実際、広告主が容易に理解できる原則に基づくヒューリスティックポリシー)を最適化するために使用することができ、ベースポリシー自体によって生成されたデータのみを必要とする。
任意の基本ポリシと深層ニューラルネットワークを組み合わせたハイブリッドエージェントアーキテクチャを用いて,最適化された基本ポリシパラメータのみを最終的にデプロイし,トレーニング後にニューラルネットワーク部分を破棄する。
このようなアーキテクチャは,シミュレーションおよび大規模生産入札環境において,統計的に有意な性能向上を達成できることを実証する。
我々のアプローチは、既存のプロダクションルーチンのパラメータを直接ニューラルネットワークのようなブラックボックススタイルのモデルに置き換えることなく最適化するため、追加のインフラストラクチャ、安全性、説明可能性コストを発生しません。
関連論文リスト
- Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Hierarchical Multi-agent Meta-Reinforcement Learning for Cross-channel Bidding [4.741091524027138]
リアルタイム入札(RTB)はオンライン広告エコシステムにおいて重要な役割を担っている。
従来の手法では、動的な予算配分問題を効果的に管理することはできない。
マルチチャネル入札最適化のための階層型マルチエージェント強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:26:30Z) - GAS: Generative Auto-bidding with Post-training Search [26.229396732360787]
本稿では,GASと呼ばれるポストトレーニング後検索を用いたフレキシブルで実用的な自動入札方式を提案し,基本方針モデルの出力を改良する。
実世界のデータセットとKuaishou広告プラットフォーム上でのオンラインA/Bテストによる実験は、GASの有効性を実証している。
論文 参考訳(メタデータ) (2024-12-22T13:47:46Z) - Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Maximizing the Success Probability of Policy Allocations in Online
Systems [5.485872703839928]
本稿では,個々の入札要求ではなく,ユーザタイムラインのレベルでの問題を検討する。
ユーザに対してポリシーを最適に割り当てるために、典型的な複数の処理割り当て手法は、knapsackのような問題を解決する。
本稿では,政策アロケーションの探索を目的としたSuccessProMaxアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2023-12-26T10:55:33Z) - Insurance pricing on price comparison websites via reinforcement
learning [7.023335262537794]
本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。
また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
論文 参考訳(メタデータ) (2023-08-14T04:44:56Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Deployment-Efficient Reinforcement Learning via Model-Based Offline
Optimization [46.017212565714175]
本稿では,政策学習に使用される異なるデータ収集ポリシーの数を測定する,展開効率の新たな概念を提案する。
本研究では,従来よりも10~20倍少ないデータを用いてオフラインでポリシーを効果的に最適化できるモデルベースアルゴリズムBREMENを提案する。
論文 参考訳(メタデータ) (2020-06-05T19:33:19Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。