論文の概要: Generate the browsing process for short-video recommendation
- arxiv url: http://arxiv.org/abs/2504.08771v2
- Date: Sat, 20 Sep 2025 15:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:44.97284
- Title: Generate the browsing process for short-video recommendation
- Title(参考訳): ショートビデオレコメンデーションのためのブラウジングプロセスの生成
- Authors: Chao Feng, Yanze Zhang, Chenghao Zhang,
- Abstract要約: 本稿では,ユーザのショートビデオ視聴ジャーニーを動的にシミュレートし,ショートビデオレコメンデーションにおけるウォッチタイム予測を提案する。
本手法は,コラボレーティブ・インフォメーションを学習することで,短い動画の視聴に対するユーザの継続的な関心をシミュレートする。
産業規模および公共データセットの実験により,本手法が時計時間予測タスクにおける最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 6.246989522091273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a generative method to dynamically simulate users' short video watching journey for watch time prediction in short video recommendation. Unlike existing methods that rely on multimodal features for video content understanding, our method simulates users' sustained interest in watching short videos by learning collaborative information, using interest changes from existing positive and negative feedback videos and user interaction behaviors to implicitly model users' video watching journey. By segmenting videos based on duration and adopting a Transformer-like architecture, our method can capture sequential dependencies between segments while mitigating duration bias. Extensive experiments on industrial-scale and public datasets demonstrate that our method achieves state-of-the-art performance on watch time prediction tasks. The method has been deployed on Kuaishou Lite, achieving a significant improvement of +0.13\% in APP duration, and reaching an XAUC of 83\% for single video watch time prediction on industrial-scale streaming training sets, far exceeding other methods. The proposed method provides a scalable and effective solution for video recommendation through segment-level modeling and user engagement feedback.
- Abstract(参考訳): 本稿では,ユーザのショートビデオ視聴ジャーニーを動的にシミュレートし,ショートビデオレコメンデーションにおけるウォッチタイム予測を提案する。
ビデオコンテンツ理解のためのマルチモーダル機能に頼っている既存の方法とは違って,既存の肯定的・否定的なフィードバックビデオやユーザインタラクション行動からの関心の変化を利用して,ユーザのビデオ視聴を暗黙的にモデル化することで,短いビデオ視聴に対するユーザの継続的な関心をシミュレートする。
ビデオのセグメント化とトランスフォーマーのようなアーキテクチャの採用により,時間バイアスを緩和しながらセグメント間のシーケンシャルな依存関係をキャプチャできる。
産業規模および公共のデータセットに対する大規模な実験により,本手法が監視時間予測タスクにおける最先端の性能を達成することを示す。
この方法はKuaishou Lite上に展開され、APP持続時間において+0.13\%の大幅な改善を実現し、産業規模のストリーミングトレーニングセット上でのシングルビデオ視聴時間の予測に83\%のXAUCに達した。
提案手法は,セグメントレベルのモデリングとユーザエンゲージメントフィードバックを通じて,ビデオレコメンデーションにスケーラブルで効果的なソリューションを提供する。
関連論文リスト
- Short Video Segment-level User Dynamic Interests Modeling in Personalized Recommendation [23.082810471266235]
短いビデオの成長は、進化する好みに合わせてユーザーとコンテンツをマッチングする効果的なレコメンデーションシステムを必要としている。
現在のビデオレコメンデーションモデルは、主に各ビデオ全体を扱い、特定のビデオセグメントでユーザーの好みの動的な性質を見渡す。
本稿では,ハイブリッド表現モジュール,マルチモーダルなユーザビデオエンコーダ,セグメント関心デコーダを統合した革新的なモデルを提案する。
論文 参考訳(メタデータ) (2025-04-05T17:45:32Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。