論文の概要: Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed
- arxiv url: http://arxiv.org/abs/2412.10381v2
- Date: Thu, 23 Jan 2025 15:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:29.005259
- Title: Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed
- Title(参考訳): フィードにおけるライブストリームアロケーションのための教師付きマルチグループアクタ批判
- Authors: Jingxin Liu, Xiang Gao, Yisha Li, Xin Li, Haiyang Lu, Ben Wang,
- Abstract要約: SL-MGAC(Supervised Learning-enhanced Multi-Group Actor Critic Algorithm)を提案する。
本稿では,分散低減手法を取り入れた教師付き学習強化アクタ批評家フレームワークを提案する。
また,過度に欲求的なライブストリームアロケーションを防止するために,新たな報酬関数を提案する。
- 参考スコア(独自算出の注目度): 14.545253604335823
- License:
- Abstract: Reinforcement Learning (RL) has been widely applied in recommendation systems to capture long-term user engagement, thus improving dwelling time and improving user retention. In the context of a short video & live stream mixed recommendation scenario, the live stream recommendation system (RS) decides whether to inject at most one live stream into the video feed for each user request. To maximize long-term user engagement, it is crucial to determine an optimal live stream injection policy for accurate live stream allocation. However, traditional RL algorithms often face divergence and instability problems, and these issues may cause too many live stream allocations, which interrupts the user's short-video interest and leads to a decrease in the user's app usage duration. To address these challenges, we propose a novel Supervised Learning-enhanced Multi-Group Actor Critic algorithm (SL-MGAC). Specifically, we introduce a supervised learning-enhanced actor critic framework that incorporates variance reduction techniques, where multi-task reward learning helps restrict bootstrapping error accumulation during critic learning. Additionally, we design a multi-group state decomposition module for both actor and critic networks to reduce prediction variance and improve model stability. We also propose a novel reward function to prevent overly greedy live-stream allocation. Empirically, we evaluate the SL-MGAC algorithm using offline policy evaluation (OPE) and online A/B testing. Experimental results demonstrate that the proposed method not only outperforms baseline methods but also exhibits enhanced stability in online recommendation scenarios.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、長期のユーザエンゲージメントを捉えるためのレコメンデーションシステムに広く応用されている。
短いビデオとライブストリーム混在レコメンデーションシナリオのコンテキストにおいて、ライブストリームレコメンデーションシステム(RS)は、ユーザ要求毎に、ビデオフィードに少なくとも1つのライブストリームを注入するかを判断する。
長期間のユーザエンゲージメントを最大化するためには、正確なライブストリームアロケーションのために最適なライブストリームインジェクションポリシーを決定することが不可欠である。
しかし、従来のRLアルゴリズムはばらつきや不安定な問題に直面することが多く、これらの問題によってライブストリームの割り当てが多すぎるため、ユーザのショートビデオへの関心が損なわれ、アプリの使用時間が減少する可能性がある。
これらの課題に対処するため, SL-MGAC (Supervised Learning-enhanced Multi-Group Actor Critic Algorithm) を提案する。
具体的には,多タスク報酬学習が批判学習時のブートストラップエラーの蓄積を抑制するために,分散低減手法を取り入れた教師付き学習強化アクタ批評家フレームワークを導入する。
さらに,アクターネットワークと批評家ネットワークの両方を対象としたマルチグループ状態分解モジュールを設計し,予測のばらつきを低減し,モデルの安定性を向上させる。
また,過度に欲求的なライブストリームアロケーションを防止するために,新たな報酬関数を提案する。
実証的に,オフラインポリシー評価(OPE)とオンラインA/Bテストを用いたSL-MGACアルゴリズムの評価を行った。
実験の結果,提案手法はベースライン手法に勝るだけでなく,オンラインレコメンデーションシナリオの安定性も向上していることがわかった。
関連論文リスト
- Meta Clustering of Neural Bandits [45.77505279698894]
ニューラルバンドのクラスタリング(Clustering of Neural Bandits)という新しい問題を,任意の報酬関数に拡張することで研究する。
本稿では,メタラーナーを用いて動的クラスタを高速に表現・適応する,M-CNBという新しいアルゴリズムを提案する。
M-CNBはレコメンデーションとオンラインの分類シナリオの両方で広範な実験を行い、SOTAベースラインを上回ります。
論文 参考訳(メタデータ) (2024-08-10T16:09:51Z) - Leave No One Behind: Online Self-Supervised Self-Distillation for Sequential Recommendation [20.52842524024608]
シーケンシャルレコメンデーション手法は、現代のレコメンデーションシステムにおいて重要な役割を担っている。
近年の手法では、コントラスト学習を利用して自己超越信号の導出を行っている。
そこで我々は,オンライン自己監督型自己蒸留(Online Self-Supervised Self-distillation for Sequential Recommendation)という新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-22T12:27:21Z) - AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Contrastive Learning for Debiased Candidate Generation in Large-Scale
Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。
我々はCLRecをさらに改良し、マルチCLRecを提案する。
提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-20T08:15:23Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。