論文の概要: Constrained Reinforcement Learning for Short Video Recommendation
- arxiv url: http://arxiv.org/abs/2205.13248v1
- Date: Thu, 26 May 2022 09:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 02:09:07.443072
- Title: Constrained Reinforcement Learning for Short Video Recommendation
- Title(参考訳): 短いビデオレコメンデーションのための制約付き強化学習
- Authors: Qingpeng Cai, Ruohan Zhan, Chi Zhang, Jie Zheng, Guangwei Ding,
Pinghua Gong, Dong Zheng, Peng Jiang
- Abstract要約: ソーシャルメディアプラットフォーム上のショートビデオは、レコメンデーターシステムの最適化に新たな課題をもたらす。
アクター・クリティカルな枠組みに基づく2段階強化学習手法を提案する。
当社のアプローチは,ユーザエクスペリエンスを最適化するために,運用システムで完全にローンチされています。
- 参考スコア(独自算出の注目度): 18.492477839791274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The wide popularity of short videos on social media poses new opportunities
and challenges to optimize recommender systems on the video-sharing platforms.
Users provide complex and multi-faceted responses towards recommendations,
including watch time and various types of interactions with videos. As a
result, established recommendation algorithms that concern a single objective
are not adequate to meet this new demand of optimizing comprehensive user
experiences. In this paper, we formulate the problem of short video
recommendation as a constrained Markov Decision Process (MDP), where platforms
want to optimize the main goal of user watch time in long term, with the
constraint of accommodating the auxiliary responses of user interactions such
as sharing/downloading videos.
To solve the constrained MDP, we propose a two-stage reinforcement learning
approach based on actor-critic framework. At stage one, we learn individual
policies to optimize each auxiliary response. At stage two, we learn a policy
to (i) optimize the main response and (ii) stay close to policies learned at
the first stage, which effectively guarantees the performance of this main
policy on the auxiliaries. Through extensive simulations, we demonstrate
effectiveness of our approach over alternatives in both optimizing the main
goal as well as balancing the others. We further show the advantage of our
approach in live experiments of short video recommendations, where it
significantly outperforms other baselines in terms of watch time and
interactions from video views. Our approach has been fully launched in the
production system to optimize user experiences on the platform.
- Abstract(参考訳): ソーシャルメディア上でのショートビデオの普及は、ビデオ共有プラットフォームの推奨システムを最適化する新たな機会と課題をもたらす。
ユーザは、ウォッチタイムやビデオとのさまざまなインタラクションなど、リコメンデーションに対する複雑で多面的な応答を提供する。
その結果、単一の目的に関する確立されたレコメンデーションアルゴリズムは、包括的ユーザエクスペリエンスの最適化という新たな要求を満たすには不十分である。
本稿では,ビデオ共有・ダウンロードなどのユーザインタラクションの補助的応答を調節する制約により,プラットフォームが長期にわたってユーザ監視時間の主目的を最適化したいという制約付きマルコフ決定プロセス(MDP)として,短いビデオレコメンデーションの問題を定式化する。
制約付きMDPを解決するために,アクター批判フレームワークに基づく2段階強化学習手法を提案する。
ステージ1では、各補助応答を最適化する個別のポリシーを学習する。
第二段階では 政策を学びます
(i)主応答を最適化し、
(二)第一段階において学んだ政策に近づかないこと。これにより、この主要な政策の補助者に対する性能が実質的に保証される。
広範なシミュレーションを通じて,本手法は,目標の最適化と他とのバランスの両立において,代替案よりも有効であることを示す。
さらに、短いビデオレコメンデーションのライブ実験において、我々のアプローチの利点が示され、ビデオビューからの視聴時間やインタラクションの点で、他のベースラインを著しく上回っている。
当社のアプローチは,プラットフォーム上のユーザエクスペリエンスを最適化する目的で,本番システムで完全にローンチされています。
関連論文リスト
- Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - A Model-based Multi-Agent Personalized Short-Video Recommender System [19.03089585214444]
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。
提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。
提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
論文 参考訳(メタデータ) (2024-05-03T04:34:36Z) - User Welfare Optimization in Recommender Systems with Competing Content Creators [65.25721571688369]
本研究では,コンテンツ制作者間での競争ゲーム環境下で,システム側ユーザ福祉の最適化を行う。
本稿では,推奨コンテンツの満足度に基づいて,各ユーザの重みの列を動的に計算する,プラットフォームのためのアルゴリズムソリューションを提案する。
これらの重みはレコメンデーションポリシーやポストレコメンデーション報酬を調整するメカニズムの設計に利用され、それによってクリエイターのコンテンツ制作戦略に影響を与える。
論文 参考訳(メタデータ) (2024-04-28T21:09:52Z) - A Large Language Model Enhanced Sequential Recommender for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。
提案手法は,逐次レコメンデーション(SR)モデルと補足型大規模言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。
特に、コメント視聴時間の4.13%が大幅に向上した。
論文 参考訳(メタデータ) (2024-03-20T13:14:29Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Two-Stage Constrained Actor-Critic for Short Video Recommendation [23.12631658373264]
CMDP(Constrained Markov Decision Process)として短いビデオレコメンデーションの問題を定式化する。
本稿では,各補助信号の最適化のための2段階制約付きアクター批判手法を提案する。
我々の手法は、時計時間と相互作用の両面で、他のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2023-02-03T12:02:54Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。