論文の概要: Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed
- arxiv url: http://arxiv.org/abs/2412.10381v2
- Date: Thu, 23 Jan 2025 15:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:29.005259
- Title: Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed
- Title(参考訳): フィードにおけるライブストリームアロケーションのための教師付きマルチグループアクタ批判
- Authors: Jingxin Liu, Xiang Gao, Yisha Li, Xin Li, Haiyang Lu, Ben Wang,
- Abstract要約: SL-MGAC(Supervised Learning-enhanced Multi-Group Actor Critic Algorithm)を提案する。
本稿では,分散低減手法を取り入れた教師付き学習強化アクタ批評家フレームワークを提案する。
また,過度に欲求的なライブストリームアロケーションを防止するために,新たな報酬関数を提案する。
- 参考スコア(独自算出の注目度): 14.545253604335823
- License:
- Abstract: Reinforcement Learning (RL) has been widely applied in recommendation systems to capture long-term user engagement, thus improving dwelling time and improving user retention. In the context of a short video & live stream mixed recommendation scenario, the live stream recommendation system (RS) decides whether to inject at most one live stream into the video feed for each user request. To maximize long-term user engagement, it is crucial to determine an optimal live stream injection policy for accurate live stream allocation. However, traditional RL algorithms often face divergence and instability problems, and these issues may cause too many live stream allocations, which interrupts the user's short-video interest and leads to a decrease in the user's app usage duration. To address these challenges, we propose a novel Supervised Learning-enhanced Multi-Group Actor Critic algorithm (SL-MGAC). Specifically, we introduce a supervised learning-enhanced actor critic framework that incorporates variance reduction techniques, where multi-task reward learning helps restrict bootstrapping error accumulation during critic learning. Additionally, we design a multi-group state decomposition module for both actor and critic networks to reduce prediction variance and improve model stability. We also propose a novel reward function to prevent overly greedy live-stream allocation. Empirically, we evaluate the SL-MGAC algorithm using offline policy evaluation (OPE) and online A/B testing. Experimental results demonstrate that the proposed method not only outperforms baseline methods but also exhibits enhanced stability in online recommendation scenarios.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、長期のユーザエンゲージメントを捉えるためのレコメンデーションシステムに広く応用されている。
短いビデオとライブストリーム混在レコメンデーションシナリオのコンテキストにおいて、ライブストリームレコメンデーションシステム(RS)は、ユーザ要求毎に、ビデオフィードに少なくとも1つのライブストリームを注入するかを判断する。
長期間のユーザエンゲージメントを最大化するためには、正確なライブストリームアロケーションのために最適なライブストリームインジェクションポリシーを決定することが不可欠である。
しかし、従来のRLアルゴリズムはばらつきや不安定な問題に直面することが多く、これらの問題によってライブストリームの割り当てが多すぎるため、ユーザのショートビデオへの関心が損なわれ、アプリの使用時間が減少する可能性がある。
これらの課題に対処するため, SL-MGAC (Supervised Learning-enhanced Multi-Group Actor Critic Algorithm) を提案する。
具体的には,多タスク報酬学習が批判学習時のブートストラップエラーの蓄積を抑制するために,分散低減手法を取り入れた教師付き学習強化アクタ批評家フレームワークを導入する。
さらに,アクターネットワークと批評家ネットワークの両方を対象としたマルチグループ状態分解モジュールを設計し,予測のばらつきを低減し,モデルの安定性を向上させる。
また,過度に欲求的なライブストリームアロケーションを防止するために,新たな報酬関数を提案する。
実証的に,オフラインポリシー評価(OPE)とオンラインA/Bテストを用いたSL-MGACアルゴリズムの評価を行った。
実験の結果,提案手法はベースライン手法に勝るだけでなく,オンラインレコメンデーションシナリオの安定性も向上していることがわかった。
関連論文リスト
- Value Function Decomposition in Markov Recommendation Process [19.082512423102855]
本稿では,レコメンダ性能を向上させるためのオンライン強化学習フレームワークを提案する。
これらの2つの因子は、元の時間差損失を分解することで、別々に近似できることを示す。
アンタングル学習フレームワークは、より高速な学習と、アクション探索に対する堅牢性の向上により、より正確な推定を実現することができる。
論文 参考訳(メタデータ) (2025-01-29T04:22:29Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning [5.012314384895537]
オフラインの強化学習では、環境からの高価なフィードバックがなければ、静的なデータセットを使ってポリシーが学習される。
我々は,観察と行動の連関分布の生成モデルを学習する制約付き潜在行動ポリシー(C-LAP)を提案する。
論文 参考訳(メタデータ) (2024-11-07T09:35:22Z) - An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation [14.506332665769746]
本稿では,UnderlinetextbfEfficient UnderlinetextbfContinuous UnderlinetextbfControl framework (ECoC)を提案する。
まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。
このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。
論文 参考訳(メタデータ) (2024-08-15T09:26:26Z) - AURO: Reinforcement Learning for Adaptive User Retention Optimization in Recommender Systems [25.18963930580529]
強化学習(Reinforcement Learning, RL)は、レコメンデーションシステムにおけるユーザ保持の最適化能力に注目が集まっている。
本稿では,この課題に対処するため,textbfAdaptive textbfUser textbfRetention textbfOptimization (AURO) という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Contrastive Learning for Debiased Candidate Generation in Large-Scale
Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。
我々はCLRecをさらに改良し、マルチCLRecを提案する。
提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-20T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。