論文の概要: Two-Stage Constrained Actor-Critic for Short Video Recommendation
- arxiv url: http://arxiv.org/abs/2302.01680v2
- Date: Mon, 6 Feb 2023 13:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 12:38:53.318449
- Title: Two-Stage Constrained Actor-Critic for Short Video Recommendation
- Title(参考訳): 短いビデオレコメンデーションのための2段階制約アクター・クライブ
- Authors: Qingpeng Cai, Zhenghai Xue, Chi Zhang, Wanqi Xue, Shuchang Liu, Ruohan
Zhan, Xueliang Wang, Tianyou Zuo, Wentao Xie, Dong Zheng, Peng Jiang, Kun Gai
- Abstract要約: CMDP(Constrained Markov Decision Process)として短いビデオレコメンデーションの問題を定式化する。
本稿では,各補助信号の最適化のための2段階制約付きアクター批判手法を提案する。
我々の手法は、時計時間と相互作用の両面で、他のベースラインを著しく上回ります。
- 参考スコア(独自算出の注目度): 24.44602201846119
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The wide popularity of short videos on social media poses new opportunities
and challenges to optimize recommender systems on the video-sharing platforms.
Users sequentially interact with the system and provide complex and
multi-faceted responses, including watch time and various types of interactions
with multiple videos. One the one hand, the platforms aims at optimizing the
users' cumulative watch time (main goal) in long term, which can be effectively
optimized by Reinforcement Learning. On the other hand, the platforms also
needs to satisfy the constraint of accommodating the responses of multiple user
interactions (auxiliary goals) such like, follow, share etc. In this paper, we
formulate the problem of short video recommendation as a Constrained Markov
Decision Process (CMDP). We find that traditional constrained reinforcement
learning algorithms can not work well in this setting. We propose a novel
two-stage constrained actor-critic method: At stage one, we learn individual
policies to optimize each auxiliary signal. At stage two, we learn a policy to
(i) optimize the main signal and (ii) stay close to policies learned at the
first stage, which effectively guarantees the performance of this main policy
on the auxiliaries. Through extensive offline evaluations, we demonstrate
effectiveness of our method over alternatives in both optimizing the main goal
as well as balancing the others. We further show the advantage of our method in
live experiments of short video recommendations, where it significantly
outperforms other baselines in terms of both watch time and interactions. Our
approach has been fully launched in the production system to optimize user
experiences on the platform.
- Abstract(参考訳): ソーシャルメディア上でのショートビデオの普及は、ビデオ共有プラットフォームの推奨システムを最適化する新たな機会と課題をもたらす。
ユーザはシステムとシーケンシャルに対話し、複数のビデオとのさまざまなタイプのインタラクションを含む、複雑で多面的な応答を提供する。
プラットフォームは、ユーザーの累積時計時間(メインゴール)を長期に最適化することを目的としており、これは強化学習によって効果的に最適化できる。
一方、プラットフォームは、フォロー、共有など、複数のユーザインタラクション(補助的な目標)のレスポンスを調節する制約を満たす必要もあります。
本稿では,CMDP(Constrained Markov Decision Process)として,短いビデオレコメンデーションの問題を定式化する。
従来の制約付き強化学習アルゴリズムはこの設定ではうまく動作しない。
そこで我々は,新たな2段階制約付きアクター批判手法を提案する: ステージ1では,各補助信号の最適化について個別のポリシーを学習する。
第二段階では 政策を学びます
(i)主信号の最適化及び
(二)第一段階において学んだ政策に近づかないこと。これにより、この主要な政策の補助者に対する性能が実質的に保証される。
大規模なオフライン評価を通じて,本手法の目的を最適化する上での代替手法に対する有効性を実証する。
さらに,提案手法は短いビデオレコメンデーションのライブ実験において,視聴時間と対話時間の両方において,他のベースラインを大きく上回る効果を示す。
当社のアプローチは,プラットフォーム上のユーザエクスペリエンスを最適化する目的で,本番システムで完全にローンチされています。
関連論文リスト
- Constrained Reinforcement Learning for Short Video Recommendation [18.492477839791274]
ソーシャルメディアプラットフォーム上のショートビデオは、レコメンデーターシステムの最適化に新たな課題をもたらす。
アクター・クリティカルな枠組みに基づく2段階強化学習手法を提案する。
当社のアプローチは,ユーザエクスペリエンスを最適化するために,運用システムで完全にローンチされています。
論文 参考訳(メタデータ) (2022-05-26T09:36:20Z) - On component interactions in two-stage recommender systems [82.38014314502861]
2段階のレコメンデータは、YouTube、LinkedIn、Pinterestなど、多くのオンラインプラットフォームで使用されている。
ランク付け器と評価器の相互作用が全体の性能に大きく影響していることが示される。
特に、Mixture-of-Expertsアプローチを用いて、アイテムプールの異なるサブセットに特化するように、ノミネータを訓練する。
論文 参考訳(メタデータ) (2021-06-28T20:53:23Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z) - An Ensemble Rate Adaptation Framework for Dynamic Adaptive Streaming
Over HTTP [88.56768382424443]
DASHのためのアンサンブルレート適応フレームワークを提案する。
フレームワークに関わる複数のメソッドの利点を活用して、ユーザのQoE(Quality of Experience)を改善することを目的としている。
論文 参考訳(メタデータ) (2019-12-26T09:54:18Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。