論文の概要: Session-Level Dynamic Ad Load Optimization using Offline Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.05591v1
- Date: Thu, 09 Jan 2025 21:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:26:56.519977
- Title: Session-Level Dynamic Ad Load Optimization using Offline Robust Reinforcement Learning
- Title(参考訳): オフラインロバスト強化学習を用いたセッションレベル動的広告負荷最適化
- Authors: Tao Liu, Qi Xu, Wei Shi, Zhigang Hua, Shuang Yang,
- Abstract要約: セッションレベルの動的広告ロード最適化は、ユーザのオンラインセッション中に配信される広告の密度とタイプをリアルタイムでパーソナライズすることを目的としている。
従来の因果学習に基づくアプローチは、重要な技術的課題に苦しむ。
本研究では,動的システムにおける共起バイアスを効果的に軽減するオフライン深層Q-network(DQN)ベースのフレームワークを開発する。
- 参考スコア(独自算出の注目度): 14.410333601657172
- License:
- Abstract: Session-level dynamic ad load optimization aims to personalize the density and types of delivered advertisements in real time during a user's online session by dynamically balancing user experience quality and ad monetization. Traditional causal learning-based approaches struggle with key technical challenges, especially in handling confounding bias and distribution shifts. In this paper, we develop an offline deep Q-network (DQN)-based framework that effectively mitigates confounding bias in dynamic systems and demonstrates more than 80% offline gains compared to the best causal learning-based production baseline. Moreover, to improve the framework's robustness against unanticipated distribution shifts, we further enhance our framework with a novel offline robust dueling DQN approach. This approach achieves more stable rewards on multiple OpenAI-Gym datasets as perturbations increase, and provides an additional 5% offline gains on real-world ad delivery data. Deployed across multiple production systems, our approach has achieved outsized topline gains. Post-launch online A/B tests have shown double-digit improvements in the engagement-ad score trade-off efficiency, significantly enhancing our platform's capability to serve both consumers and advertisers.
- Abstract(参考訳): セッションレベルの動的広告負荷最適化は、ユーザエクスペリエンスの品質と広告収益化を動的にバランスさせることで、ユーザのオンラインセッション中に配信される広告の密度とタイプをリアルタイムでパーソナライズすることを目的としている。
従来の因果学習に基づくアプローチは、特に矛盾するバイアスや分散シフトを扱う際に、重要な技術的課題に苦しむ。
本稿では,動的システムにおける共起バイアスを効果的に軽減し,最高の因果学習ベースの生産ベースラインと比較して80%以上のオフラインゲインを示すオフライン深層Q-network(DQN)ベースのフレームワークを開発する。
さらに、予期しない分散シフトに対するフレームワークの堅牢性を改善するために、新しいオフラインロバストなDQNアプローチにより、我々のフレームワークをさらに強化する。
このアプローチは、摂動の増加に伴い、複数のOpenAI-Gymデータセットに対するより安定した報酬を実現し、現実世界の広告配信データに対して、さらに5%のオフラインゲインを提供する。
複数のプロダクションシステムにまたがってデプロイされた当社のアプローチは,これまでで最大のトップラインゲインを実現しています。
ローンチ後のオンラインA/Bテストでは、エンゲージメント・アズ・スコアのトレードオフ効率が2桁改善され、コンシューマと広告主の両方にサービスを提供するプラットフォームの性能が大幅に向上した。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Incentive-Compatible Federated Learning with Stackelberg Game Modeling [11.863770989724959]
適応ガンマベースのStackelbergゲームに基づく新しいフェデレートラーニングフレームワークであるFLammaを紹介する。
当社のアプローチでは、サーバがリーダとして機能し、動的に崩壊要因を調整し、クライアントはフォロワーとして、その効用を最大化するローカルエポックの数を最適に選択します。
時間が経つにつれて、サーバはクライアントの影響を徐々にバランスさせ、最初は高いコントリビューションのクライアントに報酬を与え、その影響を徐々にレベルアップさせ、システムをStackelberg Equilibriumに誘導する。
論文 参考訳(メタデータ) (2025-01-05T21:04:41Z) - Ads Supply Personalization via Doubly Robust Learning [13.392289135329833]
広告供給のパーソナライゼーションは、広告量と密度を調整することによって、ソーシャルメディア広告における2つの長期的な目標である、収益とユーザエンゲージメントのバランスを図ることを目的としている。
本稿では,パーソナライズされた広告配信のためのフレームワークを提案する。
データの収集方針からの情報を2倍頑健な学習を通じて最適に活用し,長期処理効果推定の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-29T06:09:52Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - Neural Optimization with Adaptive Heuristics for Intelligent Marketing System [1.3079444139643954]
本稿では,AIシステムのマーケティングのための一般的なフレームワークとして,適応ヒューリスティックス(Noah)フレームワークを用いたニューラル最適化を提案する。
Noahは2B(to-business)と2C(to-consumer)の両方の製品と、所有チャンネルと有償チャネルを考慮に入れた、マーケティング最適化のための最初の一般的なフレームワークである。
我々は、予測、最適化、適応的なオーディエンスを含むNoahフレームワークの重要なモジュールを説明し、入札とコンテンツ最適化の例を提供する。
論文 参考訳(メタデータ) (2024-05-17T01:44:30Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Efficient and Effective Augmentation Strategy for Adversarial Training [48.735220353660324]
ディープニューラルネットワークの敵対的トレーニングは、標準トレーニングよりもはるかにデータ処理が難しいことが知られている。
本稿では,DAJAT(Diverse Augmentation-based Joint Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-10-27T10:59:55Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z) - Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential
Advertising [52.3825928886714]
我々は、動的knapsack問題として、シーケンシャルな広告戦略最適化を定式化する。
理論的に保証された二段階最適化フレームワークを提案し、元の最適化空間の解空間を大幅に削減する。
強化学習の探索効率を向上させるため,効果的な行動空間削減手法も考案した。
論文 参考訳(メタデータ) (2020-06-29T18:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。