Fugu-MT 論文翻訳(概要): Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed

論文の概要: Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed

arxiv url: http://arxiv.org/abs/2412.10381v2
Date: Thu, 23 Jan 2025 15:03:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 16:15:53.438322
Title: Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed
Title（参考訳）: フィードにおけるライブストリームアロケーションのための教師付きマルチグループアクタ批判
Authors: Jingxin Liu, Xiang Gao, Yisha Li, Xin Li, Haiyang Lu, Ben Wang,
Abstract要約: SL-MGAC(Supervised Learning-enhanced Multi-Group Actor Critic Algorithm)を提案する。本稿では,分散低減手法を取り入れた教師付き学習強化アクタ批評家フレームワークを提案する。また,過度に欲求的なライブストリームアロケーションを防止するために,新たな報酬関数を提案する。
参考スコア（独自算出の注目度）: 14.545253604335823
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning (RL) has been widely applied in recommendation systems to capture long-term user engagement, thus improving dwelling time and improving user retention. In the context of a short video & live stream mixed recommendation scenario, the live stream recommendation system (RS) decides whether to inject at most one live stream into the video feed for each user request. To maximize long-term user engagement, it is crucial to determine an optimal live stream injection policy for accurate live stream allocation. However, traditional RL algorithms often face divergence and instability problems, and these issues may cause too many live stream allocations, which interrupts the user's short-video interest and leads to a decrease in the user's app usage duration. To address these challenges, we propose a novel Supervised Learning-enhanced Multi-Group Actor Critic algorithm (SL-MGAC). Specifically, we introduce a supervised learning-enhanced actor critic framework that incorporates variance reduction techniques, where multi-task reward learning helps restrict bootstrapping error accumulation during critic learning. Additionally, we design a multi-group state decomposition module for both actor and critic networks to reduce prediction variance and improve model stability. We also propose a novel reward function to prevent overly greedy live-stream allocation. Empirically, we evaluate the SL-MGAC algorithm using offline policy evaluation (OPE) and online A/B testing. Experimental results demonstrate that the proposed method not only outperforms baseline methods but also exhibits enhanced stability in online recommendation scenarios.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、長期のユーザエンゲージメントを捉えるためのレコメンデーションシステムに広く応用されている。短いビデオとライブストリーム混在レコメンデーションシナリオのコンテキストにおいて、ライブストリームレコメンデーションシステム(RS)は、ユーザ要求毎に、ビデオフィードに少なくとも1つのライブストリームを注入するかを判断する。長期間のユーザエンゲージメントを最大化するためには、正確なライブストリームアロケーションのために最適なライブストリームインジェクションポリシーを決定することが不可欠である。しかし、従来のRLアルゴリズムはばらつきや不安定な問題に直面することが多く、これらの問題によってライブストリームの割り当てが多すぎるため、ユーザのショートビデオへの関心が損なわれ、アプリの使用時間が減少する可能性がある。これらの課題に対処するため, SL-MGAC (Supervised Learning-enhanced Multi-Group Actor Critic Algorithm) を提案する。具体的には,多タスク報酬学習が批判学習時のブートストラップエラーの蓄積を抑制するために,分散低減手法を取り入れた教師付き学習強化アクタ批評家フレームワークを導入する。さらに,アクターネットワークと批評家ネットワークの両方を対象としたマルチグループ状態分解モジュールを設計し,予測のばらつきを低減し,モデルの安定性を向上させる。また,過度に欲求的なライブストリームアロケーションを防止するために,新たな報酬関数を提案する。実証的に,オフラインポリシー評価(OPE)とオンラインA/Bテストを用いたSL-MGACアルゴリズムの評価を行った。実験の結果,提案手法はベースライン手法に勝るだけでなく,オンラインレコメンデーションシナリオの安定性も向上していることがわかった。

関連論文リスト

Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations [6.949170757786365]
本稿では,LAAC (LLM-guided Adversarial Actor Critic) を提案する。 LAACは、不均衡なデータに頑健でありながら、多様性、ノベルティ、正確性において既存のベースラインを上回ります。
論文参考訳（メタデータ） (2025-07-28T19:00:40Z)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
Prior-Guided Diffusion Planning for Offline Reinforcement Learning [4.760537994346813]
Prior Guidance (PG) は、標準ガウスの拡散モデルを置き換える新しいサンプリングフレームワークである。 PGは拡散モデル自体の費用対効果を伴わない高値軌道を直接生成する。我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文参考訳（メタデータ） (2025-05-16T05:39:02Z)
Value Function Decomposition in Markov Recommendation Process [19.082512423102855]
本稿では,レコメンダ性能を向上させるためのオンライン強化学習フレームワークを提案する。これらの2つの因子は、元の時間差損失を分解することで、別々に近似できることを示す。アンタングル学習フレームワークは、より高速な学習と、アクション探索に対する堅牢性の向上により、より正確な推定を実現することができる。
論文参考訳（メタデータ） (2025-01-29T04:22:29Z)
Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。 LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文参考訳（メタデータ） (2025-01-23T16:37:44Z)
Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning [5.012314384895537]
オフラインの強化学習では、環境からの高価なフィードバックがなければ、静的なデータセットを使ってポリシーが学習される。我々は,観察と行動の連関分布の生成モデルを学習する制約付き潜在行動ポリシー(C-LAP)を提案する。
論文参考訳（メタデータ） (2024-11-07T09:35:22Z)
An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation [14.506332665769746]
本稿では,UnderlinetextbfEfficient UnderlinetextbfContinuous UnderlinetextbfControl framework (ECoC)を提案する。まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。
論文参考訳（メタデータ） (2024-08-15T09:26:26Z)
Meta Clustering of Neural Bandits [45.77505279698894]
ニューラルバンドのクラスタリング(Clustering of Neural Bandits)という新しい問題を,任意の報酬関数に拡張することで研究する。本稿では,メタラーナーを用いて動的クラスタを高速に表現・適応する,M-CNBという新しいアルゴリズムを提案する。 M-CNBはレコメンデーションとオンラインの分類シナリオの両方で広範な実験を行い、SOTAベースラインを上回ります。
論文参考訳（メタデータ） (2024-08-10T16:09:51Z)
StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文参考訳（メタデータ） (2024-06-13T02:08:28Z)
Leave No One Behind: Online Self-Supervised Self-Distillation for Sequential Recommendation [20.52842524024608]
シーケンシャルレコメンデーション手法は、現代のレコメンデーションシステムにおいて重要な役割を担っている。近年の手法では、コントラスト学習を利用して自己超越信号の導出を行っている。そこで我々は,オンライン自己監督型自己蒸留(Online Self-Supervised Self-distillation for Sequential Recommendation)という新しい学習パラダイムを導入する。
論文参考訳（メタデータ） (2024-03-22T12:27:21Z)
AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。 AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文参考訳（メタデータ） (2023-10-06T02:45:21Z)
Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文参考訳（メタデータ） (2023-01-20T15:28:09Z)
Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文参考訳（メタデータ） (2022-09-01T15:27:46Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
Improving Long-Term Metrics in Recommendation Systems using Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-06-01T15:58:05Z)
Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T11:18:57Z)
Contrastive Learning for Debiased Candidate Generation in Large-Scale Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。我々はCLRecをさらに改良し、マルチCLRecを提案する。提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文参考訳（メタデータ） (2020-05-20T08:15:23Z)
Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文参考訳（メタデータ） (2020-03-11T14:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。