論文の概要: Sustainable Online Reinforcement Learning for Auto-bidding
- arxiv url: http://arxiv.org/abs/2210.07006v1
- Date: Thu, 13 Oct 2022 13:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:38:38.617590
- Title: Sustainable Online Reinforcement Learning for Auto-bidding
- Title(参考訳): 自動入札のためのオンライン強化学習
- Authors: Zhiyu Mou, Yusen Huo, Rongquan Bai, Mingzhou Xie, Chuan Yu, Jian Xu,
Bo Zheng
- Abstract要約: 最先端の自動入札ポリシーは、通常、広告主に代わってリアルタイム入札を生成するために強化学習(RL)アルゴリズムを活用する。
安全上の懸念から,RASで発生した履歴データに基づいて構築されたオフライン仮想広告システム(VAS)では,RLトレーニングプロセスが実行可能であると考えられた。
本稿では、VASとRASの間には大きなギャップがあることを論じ、RALトレーニングプロセスはオンラインとオフラインの整合性の問題に悩まされる。
- 参考スコア(独自算出の注目度): 10.72140135793476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, auto-bidding technique has become an essential tool to increase the
revenue of advertisers. Facing the complex and ever-changing bidding
environments in the real-world advertising system (RAS), state-of-the-art
auto-bidding policies usually leverage reinforcement learning (RL) algorithms
to generate real-time bids on behalf of the advertisers. Due to safety
concerns, it was believed that the RL training process can only be carried out
in an offline virtual advertising system (VAS) that is built based on the
historical data generated in the RAS. In this paper, we argue that there exists
significant gaps between the VAS and RAS, making the RL training process suffer
from the problem of inconsistency between online and offline (IBOO). Firstly,
we formally define the IBOO and systematically analyze its causes and
influences. Then, to avoid the IBOO, we propose a sustainable online RL (SORL)
framework that trains the auto-bidding policy by directly interacting with the
RAS, instead of learning in the VAS. Specifically, based on our proof of the
Lipschitz smooth property of the Q function, we design a safe and efficient
online exploration (SER) policy for continuously collecting data from the RAS.
Meanwhile, we derive the theoretical lower bound on the safety of the SER
policy. We also develop a variance-suppressed conservative Q-learning (V-CQL)
method to effectively and stably learn the auto-bidding policy with the
collected data. Finally, extensive simulated and real-world experiments
validate the superiority of our approach over the state-of-the-art auto-bidding
algorithm.
- Abstract(参考訳): 近年,自動入札技術は広告主の収益向上に欠かせないツールとなっている。
現実の広告システム(RAS)における複雑で絶え間なく変化する入札環境に対して、最先端の自動入札ポリシーは通常、広告主に代わってリアルタイム入札を生成するために強化学習(RL)アルゴリズムを活用する。
安全上の懸念から,RASで発生した履歴データに基づいて構築されたオフライン仮想広告システム(VAS)では,RLトレーニングプロセスが実行可能であると考えられた。
本稿では,VASとRASの間には大きなギャップがあることを論じ,オンラインとオフライン(IBOO)間の不整合に苦しむRLトレーニングプロセスについて述べる。
まず、IBOOを正式に定義し、その原因と影響を体系的に分析する。
IBOOを回避するために,VASで学ぶのではなく,RASと直接対話することで自動入札ポリシーを訓練する,持続可能なオンラインRL(SORL)フレームワークを提案する。
具体的には、Q関数のリプシッツ滑らかな性質の証明に基づいて、RASからデータを継続的に収集するための安全で効率的なオンライン探索(SER)ポリシーを設計する。
一方,我々は,ser政策の安全性に関する理論的下限を導出する。
また,分散抑制型保守的q-learning(v-cql)手法を開発し,収集したデータを用いて自動入札ポリシーを効果的かつ安定的に学習する。
最後に、シミュレーションおよび実世界の広範な実験により、最先端の自動入札アルゴリズムに対する我々のアプローチの優位性を検証した。
関連論文リスト
- Trajectory-wise Iterative Reinforcement Learning Framework for Auto-bidding [16.556934508295456]
オンライン広告では、広告主は広告機会を得るために広告オークションに参加し、しばしば需要側プラットフォーム(DSP)が提供する自動入札ツールを利用する。
安全上の懸念から、ほとんどのRLベースの自動入札ポリシーはシミュレーションでトレーニングされており、オンライン環境にデプロイするとパフォーマンスが低下する。
本稿では,反復的オフラインRLのための新しいデータ収集・データ利用手法であるTrajectory-wise Exploration and Exploitation (TEE)を提案する。
論文 参考訳(メタデータ) (2024-02-23T05:20:23Z) - Safety-aware Causal Representation for Trustworthy Offline Reinforcement
Learning in Autonomous Driving [33.672722472758636]
オフライン強化学習(RL)アプローチは、オフラインデータセットからのシーケンシャルな意思決定問題に対処する上で、顕著な効果を示す。
一般化可能なエンドツーエンド駆動ポリシの学習を容易にするために,saFety-aware strUctured Scenario representation (Fusion)を導入した。
様々な運転シナリオにおける実証的な証拠は、フュージョンが自律運転エージェントの安全性と一般化性を著しく向上させることを証明している。
論文 参考訳(メタデータ) (2023-10-31T18:21:24Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - Safe Offline Reinforcement Learning with Real-Time Budget Constraints [17.64685813460148]
多くの現実世界のアプリケーションでは、学習されたポリシーは動的に決定された安全予算にリアルタイムで対応する必要がある。
本稿では,トラジェクティブに基づくReal-time Budget Inference (TREBI) を提案する。
オフライン環境下でのリアルタイム予算制約問題の解決におけるTREBIの有効性を実世界の大規模広告アプリケーションで実証した。
論文 参考訳(メタデータ) (2023-06-01T12:19:32Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge
Computing Migrations [55.131858975133085]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。