論文の概要: Multi-task Offline Reinforcement Learning for Online Advertising in Recommender Systems
- arxiv url: http://arxiv.org/abs/2506.23090v1
- Date: Sun, 29 Jun 2025 05:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.712954
- Title: Multi-task Offline Reinforcement Learning for Online Advertising in Recommender Systems
- Title(参考訳): リコメンダシステムにおけるオンライン広告のためのマルチタスクオフライン強化学習
- Authors: Langming Liu, Wanyu Wang, Chi Zhang, Bo Li, Hongzhi Yin, Xuetao Wei, Wenbo Su, Bo Zheng, Xiangyu Zhao,
- Abstract要約: 現在のオフライン強化学習(RL)手法は、スパース広告シナリオに適用した場合、重大な課題に直面している。
MTORLは,2つの主要な目標を対象とする,新しいマルチタスクオフラインRLモデルである。
我々はマルチタスク学習を用いて行動と報酬をデコードし、同時にチャネルレコメンデーションと予算配分に対処する。
- 参考スコア(独自算出の注目度): 54.709976343045824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online advertising in recommendation platforms has gained significant attention, with a predominant focus on channel recommendation and budget allocation strategies. However, current offline reinforcement learning (RL) methods face substantial challenges when applied to sparse advertising scenarios, primarily due to severe overestimation, distributional shifts, and overlooking budget constraints. To address these issues, we propose MTORL, a novel multi-task offline RL model that targets two key objectives. First, we establish a Markov Decision Process (MDP) framework specific to the nuances of advertising. Then, we develop a causal state encoder to capture dynamic user interests and temporal dependencies, facilitating offline RL through conditional sequence modeling. Causal attention mechanisms are introduced to enhance user sequence representations by identifying correlations among causal states. We employ multi-task learning to decode actions and rewards, simultaneously addressing channel recommendation and budget allocation. Notably, our framework includes an automated system for integrating these tasks into online advertising. Extensive experiments on offline and online environments demonstrate MTORL's superiority over state-of-the-art methods.
- Abstract(参考訳): レコメンデーションプラットフォームにおけるオンライン広告は、チャネルレコメンデーションと予算配分戦略に重点を置いている。
しかし、現在のオフライン強化学習(RL)手法は、過度な過大評価、分布シフト、予算制約の見落としなど、スパース広告のシナリオに適用する場合に重大な課題に直面している。
これらの問題に対処するため、我々は2つの主要な目標をターゲットとした新しいマルチタスクオフラインRLモデルであるMTORLを提案する。
まず、広告のニュアンスに特有のマルコフ決定プロセス(MDP)の枠組みを確立する。
そこで我々は,動的ユーザの興味や時間的依存を捕捉する因果状態エンコーダを開発し,条件付きシーケンスモデリングによりオフラインRLを容易にする。
因果状態間の相関を同定することにより、ユーザシーケンス表現を強化するために因果注意機構が導入された。
我々はマルチタスク学習を用いて行動と報酬をデコードし、同時にチャネルレコメンデーションと予算配分に対処する。
私たちのフレームワークには、これらのタスクをオンライン広告に統合する自動化システムが含まれています。
オフラインおよびオンライン環境での大規模な実験は、MTORLが最先端の手法よりも優れていることを示している。
関連論文リスト
- EGA-V1: Unifying Online Advertising with End-to-End Learning [17.943921299281207]
EGA-V1は、オンライン広告ランキングを一つのモデルとして統一するエンドツーエンドの生成アーキテクチャである。
EGA-V1はカスケードステージを1つのモデルに置き換え、完全な候補広告コーパスから最適な広告シーケンスを直接生成する。
論文 参考訳(メタデータ) (2025-05-26T09:33:54Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z) - Offline Multitask Representation Learning for Reinforcement Learning [86.26066704016056]
強化学習(RL)におけるオフラインマルチタスク表現学習の研究
オフラインマルチタスク表現学習のための新しいアルゴリズム MORL を提案する。
我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。
論文 参考訳(メタデータ) (2024-03-18T08:50:30Z) - Trajectory-wise Iterative Reinforcement Learning Framework for Auto-bidding [16.556934508295456]
オンライン広告では、広告主は広告機会を得るために広告オークションに参加し、しばしば需要側プラットフォーム(DSP)が提供する自動入札ツールを利用する。
安全上の懸念から、ほとんどのRLベースの自動入札ポリシーはシミュレーションでトレーニングされており、オンライン環境にデプロイするとパフォーマンスが低下する。
本稿では,反復的オフラインRLのための新しいデータ収集・データ利用手法であるTrajectory-wise Exploration and Exploitation (TEE)を提案する。
論文 参考訳(メタデータ) (2024-02-23T05:20:23Z) - Deploying Offline Reinforcement Learning with Human Feedback [34.11507483049087]
強化学習は、現実世界のアプリケーションで意思決定タスクを約束している。
1つの実践的なフレームワークは、オフラインデータセットからパラメータ化されたポリシーモデルをトレーニングし、それらをオンライン環境にデプロイすることである。
このアプローチは、オフライントレーニングが完璧でない可能性があるため、危険なアクションを取る可能性のあるRLモデルのパフォーマンスが低下する可能性があるため、リスクが伴う可能性がある。
我々は、人間がRLモデルを監督し、オンラインデプロイメントフェーズで追加のフィードバックを提供する代替フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T12:13:16Z) - Multi-objective Optimization of Notifications Using Offline
Reinforcement Learning [1.2303635283131926]
我々はマルコフ決定過程として準リアルタイム通知決定問題を定式化する。
逐次通知決定を最適化するエンドツーエンドのオフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T00:53:08Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。