Fugu-MT 論文翻訳(概要): Two-Stage Constrained Actor-Critic for Short Video Recommendation

論文の概要: Two-Stage Constrained Actor-Critic for Short Video Recommendation

arxiv url: http://arxiv.org/abs/2302.01680v2
Date: Mon, 6 Feb 2023 13:02:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-07 12:38:53.318449
Title: Two-Stage Constrained Actor-Critic for Short Video Recommendation
Title（参考訳）: 短いビデオレコメンデーションのための2段階制約アクター・クライブ
Authors: Qingpeng Cai, Zhenghai Xue, Chi Zhang, Wanqi Xue, Shuchang Liu, Ruohan Zhan, Xueliang Wang, Tianyou Zuo, Wentao Xie, Dong Zheng, Peng Jiang, Kun Gai
Abstract要約: CMDP(Constrained Markov Decision Process)として短いビデオレコメンデーションの問題を定式化する。本稿では,各補助信号の最適化のための2段階制約付きアクター批判手法を提案する。我々の手法は、時計時間と相互作用の両面で、他のベースラインを著しく上回ります。
参考スコア（独自算出の注目度）: 24.44602201846119
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The wide popularity of short videos on social media poses new opportunities and challenges to optimize recommender systems on the video-sharing platforms. Users sequentially interact with the system and provide complex and multi-faceted responses, including watch time and various types of interactions with multiple videos. One the one hand, the platforms aims at optimizing the users' cumulative watch time (main goal) in long term, which can be effectively optimized by Reinforcement Learning. On the other hand, the platforms also needs to satisfy the constraint of accommodating the responses of multiple user interactions (auxiliary goals) such like, follow, share etc. In this paper, we formulate the problem of short video recommendation as a Constrained Markov Decision Process (CMDP). We find that traditional constrained reinforcement learning algorithms can not work well in this setting. We propose a novel two-stage constrained actor-critic method: At stage one, we learn individual policies to optimize each auxiliary signal. At stage two, we learn a policy to (i) optimize the main signal and (ii) stay close to policies learned at the first stage, which effectively guarantees the performance of this main policy on the auxiliaries. Through extensive offline evaluations, we demonstrate effectiveness of our method over alternatives in both optimizing the main goal as well as balancing the others. We further show the advantage of our method in live experiments of short video recommendations, where it significantly outperforms other baselines in terms of both watch time and interactions. Our approach has been fully launched in the production system to optimize user experiences on the platform.
Abstract（参考訳）: ソーシャルメディア上でのショートビデオの普及は、ビデオ共有プラットフォームの推奨システムを最適化する新たな機会と課題をもたらす。ユーザはシステムとシーケンシャルに対話し、複数のビデオとのさまざまなタイプのインタラクションを含む、複雑で多面的な応答を提供する。プラットフォームは、ユーザーの累積時計時間(メインゴール)を長期に最適化することを目的としており、これは強化学習によって効果的に最適化できる。一方、プラットフォームは、フォロー、共有など、複数のユーザインタラクション(補助的な目標)のレスポンスを調節する制約を満たす必要もあります。本稿では,CMDP(Constrained Markov Decision Process)として,短いビデオレコメンデーションの問題を定式化する。従来の制約付き強化学習アルゴリズムはこの設定ではうまく動作しない。そこで我々は,新たな2段階制約付きアクター批判手法を提案する: ステージ1では,各補助信号の最適化について個別のポリシーを学習する。第二段階では政策を学びます (i)主信号の最適化及び (二)第一段階において学んだ政策に近づかないこと。これにより、この主要な政策の補助者に対する性能が実質的に保証される。大規模なオフライン評価を通じて,本手法の目的を最適化する上での代替手法に対する有効性を実証する。さらに,提案手法は短いビデオレコメンデーションのライブ実験において,視聴時間と対話時間の両方において,他のベースラインを大きく上回る効果を示す。当社のアプローチは,プラットフォーム上のユーザエクスペリエンスを最適化する目的で,本番システムで完全にローンチされています。

関連論文リスト

Heterogeneous Multi-treatment Uplift Modeling for Trade-off Optimization in Short-Video Recommendation [12.779660880397676]
ソーシャルメディアプラットフォーム上のショートビデオは、レコメンデーションシステムに固有の課題と機会を提供する。既存のアップリフトモデルは、ショートビデオレコメンデーションの不均一なマルチ処理シナリオを扱う際の制限に直面している。短ビデオレコメンデーションにおけるトレードオフ最適化のための新しいヘテロジニアス・マルチトリート・アップリフト・モデリング・フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-24T11:22:46Z)
Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-06-02T17:28:26Z)
Generate the browsing process for short-video recommendation [6.246989522091273]
本稿では,ユーザのショートビデオ視聴ジャーニーを動的にシミュレートし,ショートビデオレコメンデーションにおけるウォッチタイム予測を提案する。本手法は,コラボレーティブ・インフォメーションを学習することで,短い動画の視聴に対するユーザの継続的な関心をシミュレートする。産業規模および公共データセットの実験により,本手法が時計時間予測タスクにおける最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-04-02T20:54:52Z)
Research on the Design of a Short Video Recommendation System Based on Multimodal Information and Differential Privacy [9.571883876747314]
本稿では,マルチモーダル情報と差分プライバシー保護に基づく短いビデオレコメンデーションシステムを提案する。深層学習モデルは、マルチモーダルデータの特徴抽出と融合に使われ、レコメンデーション精度を効果的に向上させる。差分プライバシー保護機構は、システムの性能を維持しながら、ユーザのデータのプライバシを確保するように設計されている。
論文参考訳（メタデータ） (2025-03-27T22:56:41Z)
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。 VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文参考訳（メタデータ） (2025-03-26T12:28:20Z)
Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-02T20:00:49Z)
A Model-based Multi-Agent Personalized Short-Video Recommender System [19.03089585214444]
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
論文参考訳（メタデータ） (2024-05-03T04:34:36Z)
PLOT-TAL -- Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization [7.682021482980697]
本稿では,時間的行動ローカライゼーション(TAL)への新たなアプローチを提案する。本稿では,最適輸送により強化されたマルチプロンプト学習フレームワークを提案する。本実験は,数ショット設定における動作の局所化精度とロバスト性を大幅に改善したことを示す。
論文参考訳（メタデータ） (2024-03-27T18:08:14Z)
A Large Language Model Enhanced Sequential Recommender for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。提案手法は,逐次レコメンデーション(SR)モデルと補足型大規模言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。特に、コメント視聴時間の4.13%が大幅に向上した。
論文参考訳（メタデータ） (2024-03-20T13:14:29Z)
Constrained Reinforcement Learning for Short Video Recommendation [18.492477839791274]
ソーシャルメディアプラットフォーム上のショートビデオは、レコメンデーターシステムの最適化に新たな課題をもたらす。アクター・クリティカルな枠組みに基づく2段階強化学習手法を提案する。当社のアプローチは,ユーザエクスペリエンスを最適化するために,運用システムで完全にローンチされています。
論文参考訳（メタデータ） (2022-05-26T09:36:20Z)
On component interactions in two-stage recommender systems [82.38014314502861]
2段階のレコメンデータは、YouTube、LinkedIn、Pinterestなど、多くのオンラインプラットフォームで使用されている。ランク付け器と評価器の相互作用が全体の性能に大きく影響していることが示される。特に、Mixture-of-Expertsアプローチを用いて、アイテムプールの異なるサブセットに特化するように、ノミネータを訓練する。
論文参考訳（メタデータ） (2021-06-28T20:53:23Z)
Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文参考訳（メタデータ） (2021-02-04T17:28:35Z)
SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文参考訳（メタデータ） (2020-06-25T13:06:59Z)
Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文参考訳（メタデータ） (2020-04-02T02:46:44Z)
Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文参考訳（メタデータ） (2019-06-15T10:30:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。