論文の概要: Two-Stage Constrained Actor-Critic for Short Video Recommendation
- arxiv url: http://arxiv.org/abs/2302.01680v2
- Date: Mon, 6 Feb 2023 13:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 12:38:53.318449
- Title: Two-Stage Constrained Actor-Critic for Short Video Recommendation
- Title(参考訳): 短いビデオレコメンデーションのための2段階制約アクター・クライブ
- Authors: Qingpeng Cai, Zhenghai Xue, Chi Zhang, Wanqi Xue, Shuchang Liu, Ruohan
Zhan, Xueliang Wang, Tianyou Zuo, Wentao Xie, Dong Zheng, Peng Jiang, Kun Gai
- Abstract要約: CMDP(Constrained Markov Decision Process)として短いビデオレコメンデーションの問題を定式化する。
本稿では,各補助信号の最適化のための2段階制約付きアクター批判手法を提案する。
我々の手法は、時計時間と相互作用の両面で、他のベースラインを著しく上回ります。
- 参考スコア(独自算出の注目度): 24.44602201846119
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The wide popularity of short videos on social media poses new opportunities
and challenges to optimize recommender systems on the video-sharing platforms.
Users sequentially interact with the system and provide complex and
multi-faceted responses, including watch time and various types of interactions
with multiple videos. One the one hand, the platforms aims at optimizing the
users' cumulative watch time (main goal) in long term, which can be effectively
optimized by Reinforcement Learning. On the other hand, the platforms also
needs to satisfy the constraint of accommodating the responses of multiple user
interactions (auxiliary goals) such like, follow, share etc. In this paper, we
formulate the problem of short video recommendation as a Constrained Markov
Decision Process (CMDP). We find that traditional constrained reinforcement
learning algorithms can not work well in this setting. We propose a novel
two-stage constrained actor-critic method: At stage one, we learn individual
policies to optimize each auxiliary signal. At stage two, we learn a policy to
(i) optimize the main signal and (ii) stay close to policies learned at the
first stage, which effectively guarantees the performance of this main policy
on the auxiliaries. Through extensive offline evaluations, we demonstrate
effectiveness of our method over alternatives in both optimizing the main goal
as well as balancing the others. We further show the advantage of our method in
live experiments of short video recommendations, where it significantly
outperforms other baselines in terms of both watch time and interactions. Our
approach has been fully launched in the production system to optimize user
experiences on the platform.
- Abstract(参考訳): ソーシャルメディア上でのショートビデオの普及は、ビデオ共有プラットフォームの推奨システムを最適化する新たな機会と課題をもたらす。
ユーザはシステムとシーケンシャルに対話し、複数のビデオとのさまざまなタイプのインタラクションを含む、複雑で多面的な応答を提供する。
プラットフォームは、ユーザーの累積時計時間(メインゴール)を長期に最適化することを目的としており、これは強化学習によって効果的に最適化できる。
一方、プラットフォームは、フォロー、共有など、複数のユーザインタラクション(補助的な目標)のレスポンスを調節する制約を満たす必要もあります。
本稿では,CMDP(Constrained Markov Decision Process)として,短いビデオレコメンデーションの問題を定式化する。
従来の制約付き強化学習アルゴリズムはこの設定ではうまく動作しない。
そこで我々は,新たな2段階制約付きアクター批判手法を提案する: ステージ1では,各補助信号の最適化について個別のポリシーを学習する。
第二段階では 政策を学びます
(i)主信号の最適化及び
(二)第一段階において学んだ政策に近づかないこと。これにより、この主要な政策の補助者に対する性能が実質的に保証される。
大規模なオフライン評価を通じて,本手法の目的を最適化する上での代替手法に対する有効性を実証する。
さらに,提案手法は短いビデオレコメンデーションのライブ実験において,視聴時間と対話時間の両方において,他のベースラインを大きく上回る効果を示す。
当社のアプローチは,プラットフォーム上のユーザエクスペリエンスを最適化する目的で,本番システムで完全にローンチされています。
関連論文リスト
- Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - A Model-based Multi-Agent Personalized Short-Video Recommender System [19.03089585214444]
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。
提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。
提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
論文 参考訳(メタデータ) (2024-05-03T04:34:36Z) - PLOT-TAL -- Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization [7.682021482980697]
本稿では,時間的行動ローカライゼーション(TAL)への新たなアプローチを提案する。
本稿では,最適輸送により強化されたマルチプロンプト学習フレームワークを提案する。
本実験は,数ショット設定における動作の局所化精度とロバスト性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-03-27T18:08:14Z) - A Large Language Model Enhanced Sequential Recommender for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。
提案手法は,逐次レコメンデーション(SR)モデルと補足型大規模言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。
特に、コメント視聴時間の4.13%が大幅に向上した。
論文 参考訳(メタデータ) (2024-03-20T13:14:29Z) - Constrained Reinforcement Learning for Short Video Recommendation [18.492477839791274]
ソーシャルメディアプラットフォーム上のショートビデオは、レコメンデーターシステムの最適化に新たな課題をもたらす。
アクター・クリティカルな枠組みに基づく2段階強化学習手法を提案する。
当社のアプローチは,ユーザエクスペリエンスを最適化するために,運用システムで完全にローンチされています。
論文 参考訳(メタデータ) (2022-05-26T09:36:20Z) - On component interactions in two-stage recommender systems [82.38014314502861]
2段階のレコメンデータは、YouTube、LinkedIn、Pinterestなど、多くのオンラインプラットフォームで使用されている。
ランク付け器と評価器の相互作用が全体の性能に大きく影響していることが示される。
特に、Mixture-of-Expertsアプローチを用いて、アイテムプールの異なるサブセットに特化するように、ノミネータを訓練する。
論文 参考訳(メタデータ) (2021-06-28T20:53:23Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。