Fugu-MT 論文翻訳(概要): Offline Reinforcement Learning for Optimizing Production Bidding Policies

論文の概要: Offline Reinforcement Learning for Optimizing Production Bidding Policies

arxiv url: http://arxiv.org/abs/2310.09426v1
Date: Fri, 13 Oct 2023 22:14:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 20:32:39.555282
Title: Offline Reinforcement Learning for Optimizing Production Bidding Policies
Title（参考訳）: 生産入札ポリシー最適化のためのオフライン強化学習
Authors: Dmytro Korenkevych, Frank Cheng, Artsiom Balakir, Alex Nikulkov, Lingnan Gao, Zhihao Cen, Zuobing Xu, Zheqing Zhu
Abstract要約: 生産環境における入札ポリシーを最適化するための一般化可能なアプローチを提案する。任意のベースポリシとディープニューラルネットワークを組み合わせたハイブリッドエージェントアーキテクチャを使用します。このようなアーキテクチャは,シミュレーションおよび大規模生産入札環境において,統計的に有意な性能向上を達成できることを実証する。
参考スコア（独自算出の注目度）: 1.8689461238197953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The online advertising market, with its thousands of auctions run per second, presents a daunting challenge for advertisers who wish to optimize their spend under a budget constraint. Thus, advertising platforms typically provide automated agents to their customers, which act on their behalf to bid for impression opportunities in real time at scale. Because these proxy agents are owned by the platform but use advertiser funds to operate, there is a strong practical need to balance reliability and explainability of the agent with optimizing power. We propose a generalizable approach to optimizing bidding policies in production environments by learning from real data using offline reinforcement learning. This approach can be used to optimize any differentiable base policy (practically, a heuristic policy based on principles which the advertiser can easily understand), and only requires data generated by the base policy itself. We use a hybrid agent architecture that combines arbitrary base policies with deep neural networks, where only the optimized base policy parameters are eventually deployed, and the neural network part is discarded after training. We demonstrate that such an architecture achieves statistically significant performance gains in both simulated and at-scale production bidding environments. Our approach does not incur additional infrastructure, safety, or explainability costs, as it directly optimizes parameters of existing production routines without replacing them with black box-style models like neural networks.
Abstract（参考訳）: オンライン広告市場は、1秒間に数千回のオークションが開催されているが、予算制約の下で支出を最適化したい広告主にとっては恐ろしい課題だ。したがって、広告プラットフォームは通常、顧客に自動エージェントを提供し、顧客に代わって行動し、大規模なインプレッション機会をリアルタイムで競う。これらのプロキシエージェントはプラットフォームによって所有されているが、運用には広告主の資金を使用するため、エージェントの信頼性と説明可能性のバランスを最適化する必要性が強い。オフライン強化学習を用いて実データから学習することで,生産環境における入札ポリシーを最適化するための一般化可能なアプローチを提案する。このアプローチは、任意の差別化可能なベースポリシー(実際、広告主が容易に理解できる原則に基づくヒューリスティックポリシー)を最適化するために使用することができ、ベースポリシー自体によって生成されたデータのみを必要とする。任意の基本ポリシと深層ニューラルネットワークを組み合わせたハイブリッドエージェントアーキテクチャを用いて,最適化された基本ポリシパラメータのみを最終的にデプロイし,トレーニング後にニューラルネットワーク部分を破棄する。このようなアーキテクチャは,シミュレーションおよび大規模生産入札環境において,統計的に有意な性能向上を達成できることを実証する。我々のアプローチは、既存のプロダクションルーチンのパラメータを直接ニューラルネットワークのようなブラックボックススタイルのモデルに置き換えることなく最適化するため、追加のインフラストラクチャ、安全性、説明可能性コストを発生しません。

関連論文リスト

Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。 LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文参考訳（メタデータ） (2025-01-23T16:37:44Z)
Hierarchical Multi-agent Meta-Reinforcement Learning for Cross-channel Bidding [4.741091524027138]
リアルタイム入札(RTB)はオンライン広告エコシステムにおいて重要な役割を担っている。従来の手法では、動的な予算配分問題を効果的に管理することはできない。マルチチャネル入札最適化のための階層型マルチエージェント強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-26T05:26:30Z)
GAS: Generative Auto-bidding with Post-training Search [26.229396732360787]
本稿では,GASと呼ばれるポストトレーニング後検索を用いたフレキシブルで実用的な自動入札方式を提案し,基本方針モデルの出力を改良する。実世界のデータセットとKuaishou広告プラットフォーム上でのオンラインA/Bテストによる実験は、GASの有効性を実証している。
論文参考訳（メタデータ） (2024-12-22T13:47:46Z)
Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文参考訳（メタデータ） (2024-05-31T16:31:07Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Maximizing the Success Probability of Policy Allocations in Online Systems [5.485872703839928]
本稿では,個々の入札要求ではなく,ユーザタイムラインのレベルでの問題を検討する。ユーザに対してポリシーを最適に割り当てるために、典型的な複数の処理割り当て手法は、knapsackのような問題を解決する。本稿では,政策アロケーションの探索を目的としたSuccessProMaxアルゴリズムについて紹介する。
論文参考訳（メタデータ） (2023-12-26T10:55:33Z)
Insurance pricing on price comparison websites via reinforcement learning [7.023335262537794]
本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
論文参考訳（メタデータ） (2023-08-14T04:44:56Z)
Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。規則化手法は学習方針と行動方針の分岐を減少させる。本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文参考訳（メタデータ） (2022-02-13T07:38:36Z)
Model-Free Learning of Optimal Deterministic Resource Allocations in Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文参考訳（メタデータ） (2021-08-23T18:26:16Z)
Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。 RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文参考訳（メタデータ） (2021-08-06T01:30:41Z)
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。 OptiDICEは最先端の手法と競合して動作することを示す。
論文参考訳（メタデータ） (2021-06-21T00:43:30Z)
Deployment-Efficient Reinforcement Learning via Model-Based Offline Optimization [46.017212565714175]
本稿では,政策学習に使用される異なるデータ収集ポリシーの数を測定する,展開効率の新たな概念を提案する。本研究では,従来よりも10～20倍少ないデータを用いてオフラインでポリシーを効果的に最適化できるモデルベースアルゴリズムBREMENを提案する。
論文参考訳（メタデータ） (2020-06-05T19:33:19Z)
Guided Uncertainty-Aware Policy Optimization: Combining Learning and Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文参考訳（メタデータ） (2020-05-21T19:47:05Z)
Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文参考訳（メタデータ） (2020-03-31T20:43:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。