論文の概要: Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.10587v1
- Date: Fri, 21 May 2021 21:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:25:57.326528
- Title: Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using
Reinforcement Learning
- Title(参考訳): 強化学習を用いたRTB広告キャンペーンの視認性最適化手法
- Authors: Michael Tashman, John Hoffman, Jiayi Xie, Fengdan Ye, Atefeh Morsali,
Lee Winikor, Rouzbeh Gerami
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。
デジタル広告において、リアルタイム入札(Real-time bidding、RTB)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is an effective technique for training
decision-making agents through interactions with their environment. The advent
of deep learning has been associated with highly notable successes with
sequential decision making problems - such as defeating some of the
highest-ranked human players at Go. In digital advertising, real-time bidding
(RTB) is a common method of allocating advertising inventory through real-time
auctions. Bidding strategies need to incorporate logic for dynamically
adjusting parameters in order to deliver pre-assigned campaign goals. Here we
discuss techniques toward using RL to train bidding agents. As a campaign
metric we particularly focused on viewability: the percentage of inventory
which goes on to be viewed by an end user.
This paper is presented as a survey of techniques and experiments which we
developed through the course of this research. We discuss expanding our
training data to include edge cases by training on simulated interactions. We
discuss the experimental results comparing the performance of several promising
RL algorithms, and an approach to hyperparameter optimization of an
actor/critic training pipeline through Bayesian optimization. Finally, we
present live-traffic tests of some of our RL agents against a rule-based
feedback-control approach, demonstrating the potential for this method as well
as areas for further improvement. This paper therefore presents an arrangement
of our findings in this quickly developing field, and ways that it can be
applied to an RTB use case.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。
ディープラーニングの出現は、goの最高位の人間プレイヤーを破るなど、連続的な意思決定問題で非常に注目すべき成功と関係している。
デジタル広告では、リアルタイム入札(rtb)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
入札戦略は、事前に割り当てられたキャンペーン目標を達成するためにパラメータを動的に調整するためのロジックを組み込む必要がある。
本稿では、入札エージェントの訓練にRLを用いる方法について論じる。
キャンペーン指標としては,特に可視性 – エンドユーザが目にするインベントリの割合 – に注目しました。
本稿は,本研究の過程で開発した技術と実験のサーベイとして紹介する。
シミュレーションインタラクションのトレーニングによるエッジケースを含むトレーニングデータの拡張について検討する。
本稿では,いくつかの有望なRLアルゴリズムの性能を比較する実験結果と,ベイズ最適化によるアクタ/クリティックトレーニングパイプラインのハイパーパラメータ最適化へのアプローチについて論じる。
最後に,ルールに基づくフィードバック制御アプローチに対するrlエージェントのライブトラフィックテストを行い,本手法の可能性を実証し,さらなる改善の可能性を示す。
そこで本稿では,この急速に発展する分野における知見の整理を行い,rtbユースケースに適用する方法を提案する。
関連論文リスト
- Optimal Execution with Reinforcement Learning [0.4972323953932129]
本研究では,強化学習による最適実行戦略の開発について検討する。
本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。
論文 参考訳(メタデータ) (2024-11-10T08:21:03Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Trajectory-wise Iterative Reinforcement Learning Framework for Auto-bidding [16.556934508295456]
オンライン広告では、広告主は広告機会を得るために広告オークションに参加し、しばしば需要側プラットフォーム(DSP)が提供する自動入札ツールを利用する。
安全上の懸念から、ほとんどのRLベースの自動入札ポリシーはシミュレーションでトレーニングされており、オンライン環境にデプロイするとパフォーマンスが低下する。
本稿では,反復的オフラインRLのための新しいデータ収集・データ利用手法であるTrajectory-wise Exploration and Exploitation (TEE)を提案する。
論文 参考訳(メタデータ) (2024-02-23T05:20:23Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Adversarial Constrained Bidding via Minimax Regret Optimization with
Causality-Aware Reinforcement Learning [18.408964908248855]
既存の制限入札のアプローチは、典型的には列車と試験条件に依存している。
本研究では,教師が教師の学習環境を学習する環境と,学習者が与えられた環境分布に対してその方針をメタ学習する環境とをインターリーブする,Minimax Regret Optimization (MiRO) 手法を提案する。
因果性認識強化学習(MiROCL)を用いたMIROは,従来の手法よりも30%以上優れていた。
論文 参考訳(メタデータ) (2023-06-12T13:31:58Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Improving Real-Time Bidding in Online Advertising Using Markov Decision
Processes and Machine Learning Techniques [0.0]
本稿では,ディープラーニングと強化学習を組み合わせたリアルタイム入札手法を提案する。
提案手法は,オークションの詳細と市場価格を予測するためのディープニューラルネットワークと,最適な入札価格を決定するための強化学習アルゴリズムを用いる。
その結果,提案手法は費用対効果と精度が好ましいことが示された。
論文 参考訳(メタデータ) (2023-05-05T14:34:20Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。