Fugu-MT 論文翻訳(概要): Coarse-to-fine Dynamic Uplift Modeling for Real-time Video Recommendation

論文の概要: Coarse-to-fine Dynamic Uplift Modeling for Real-time Video Recommendation

arxiv url: http://arxiv.org/abs/2410.16755v1
Date: Tue, 22 Oct 2024 07:20:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.920608
Title: Coarse-to-fine Dynamic Uplift Modeling for Real-time Video Recommendation
Title（参考訳）: リアルタイムビデオレコメンデーションのための粗大きめ動的昇降モデリング
Authors: Chang Meng, Chenhao Zhai, Xueliang Wang, Shuchang Liu, Xiaoqiang Feng, Lantao Hu, Xiu Li, Han Li, Kun Gai,
Abstract要約: リアルタイムビデオレコメンデーションのための動的アップリフトモデリング(CDUM)を提案する。 CDUMはCPMとFICの2つのモジュールから構成される。提案したCDUMは最終的にKuaishouプラットフォームに完全にデプロイされ、毎日数億人のユーザにサービスを提供しています。
参考スコア（独自算出の注目度）: 33.11478547417251
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rise of short video platforms, video recommendation technology faces more complex challenges. Currently, there are multiple non-personalized modules in the video recommendation pipeline that urgently need personalized modeling techniques for improvement. Inspired by the success of uplift modeling in online marketing, we attempt to implement uplift modeling in the video recommendation scenario. However, we face two main challenges: 1) Design and utilization of treatments, and 2) Capture of user real-time interest. To address them, we design adjusting the distribution of videos with varying durations as the treatment and propose Coarse-to-fine Dynamic Uplift Modeling (CDUM) for real-time video recommendation. CDUM consists of two modules, CPM and FIC. The former module fully utilizes the offline features of users to model their long-term preferences, while the latter module leverages online real-time contextual features and request-level candidates to model users' real-time interests. These two modules work together to dynamically identify and targeting specific user groups and applying treatments effectively. Further, we conduct comprehensive experiments on the offline public and industrial datasets and online A/B test, demonstrating the superiority and effectiveness of our proposed CDUM. Our proposed CDUM is eventually fully deployed on the Kuaishou platform, serving hundreds of millions of users every day. The source code will be provided after the paper is accepted.
Abstract（参考訳）: 短いビデオプラットホームの台頭により、ビデオレコメンデーション技術はより複雑な課題に直面している。現在、ビデオレコメンデーションパイプラインには複数の非個人化モジュールがあり、改善のためにパーソナライズされたモデリング技術が必要である。オンラインマーケティングにおけるアップリフトモデリングの成功に触発されて、ビデオレコメンデーションシナリオでアップリフトモデリングを実装しようとする。しかしながら、私たちは2つの大きな課題に直面しています。 1【治療の設計・利用】 2)ユーザのリアルタイム関心の獲得。そこで我々は, リアルタイムなビデオレコメンデーションのために, 処理期間の異なる動画の配信調整を設計し, 粗大な動的隆起モデリング(CDUM)を提案する。 CDUMはCPMとFICの2つのモジュールから構成される。前者のモジュールはユーザのオフライン機能を完全に活用して長期的嗜好をモデル化し、後者のモジュールはオンラインのリアルタイムコンテキスト機能と要求レベルの候補を利用してユーザのリアルタイム関心をモデル化する。これら2つのモジュールは協調して、特定のユーザグループを動的に識別し、ターゲットとし、効果的に治療を適用する。さらに、オフラインのパブリックデータセットと産業データセットとオンラインA/Bテストに関する総合的な実験を行い、提案したCDUMの優位性と有効性を実証した。提案したCDUMは最終的にKuaishouプラットフォームに完全にデプロイされ、毎日数億人のユーザにサービスを提供しています。ソースコードは、論文が受理された後に提供される。

関連論文リスト

Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文参考訳（メタデータ） (2025-01-10T18:59:54Z)
GIRAFFE: Design Choices for Extending the Context Length of Visual Language Models [20.976319536167512]
我々は、視覚言語モデルの長期的性能を高める効果的なソリューションを確立することを目指している。本稿では, 有効長が128Kまで拡張されたジリンを提案する。コード、データ、モデルをオープンソースにします。
論文参考訳（メタデータ） (2024-12-17T09:57:21Z)
QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou [23.818456863262494]
異なる下流モデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズするための定量的なマルチモーダルフレームワークを導入する。ダウンストリームタスクの利用における2つの難題に着想を得て、異なるダウンストリームモデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズする定量的なマルチモーダルフレームワークを導入する。
論文参考訳（メタデータ） (2024-11-18T17:08:35Z)
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-30T17:56:27Z)
Dreaming User Multimodal Representation Guided by The Platonic Representation Hypothesis for Micro-Video Recommendation [1.8604168495693911]
マルチモーダ空間におけるリアルタイムなユーザ表現を実現するために,ユーザの履歴行動を活用する新しいアプローチであるDreamUMMを紹介する。 DreamUMMは、ユーザビデオの好みとマルチモーダルな類似性を関連づけたクローズドフォームのソリューションを採用しており、ユーザ興味が統一マルチモーダル空間で効果的に表現できるという仮説を立てている。本研究は,マルチモーダル空間に居住するユーザ関心表現の可能性を支持する実証的証拠を提供することにより,表現収束の継続的な探索に寄与する。
論文参考訳（メタデータ） (2024-09-15T06:40:38Z)
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-04-01T17:28:16Z)
A Large Language Model Enhanced Sequential Recommender for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。提案手法は,逐次レコメンデーション(SR)モデルと補足型大規模言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。特に、コメント視聴時間の4.13%が大幅に向上した。
論文参考訳（メタデータ） (2024-03-20T13:14:29Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
PEEKABOO: Interactive Video Generation via Masked-Diffusion [16.27046318032809]
モジュールベースのビデオ生成モデルにビデオ制御を組み込むための第1のソリューションを提案する。 Peekabooは、既存のビデオ生成モデルとシームレスに統合され、追加のトレーニングや推論オーバーヘッドを必要とせずに、コントロールを提供する。我々の広範囲な質的および定量的評価により、PeekabooはmIoUのベースラインモデルよりも最大3.8倍改善していることが明らかとなった。
論文参考訳（メタデータ） (2023-12-12T18:43:05Z)
Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。画像間知識伝達の文脈における時間的モデリングを再考する。本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文参考訳（メタデータ） (2023-01-26T14:12:02Z)
MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。 MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文参考訳（メタデータ） (2020-12-13T06:34:18Z)
VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文参考訳（メタデータ） (2020-10-12T02:19:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。