論文の概要: Short Video Segment-level User Dynamic Interests Modeling in Personalized Recommendation
- arxiv url: http://arxiv.org/abs/2504.04237v1
- Date: Sat, 05 Apr 2025 17:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:38.683046
- Title: Short Video Segment-level User Dynamic Interests Modeling in Personalized Recommendation
- Title(参考訳): パーソナライズされたレコメンデーションにおける短いビデオセグメントレベルのユーザ動的興味モデリング
- Authors: Zhiyu He, Zhixin Ling, Jiayu Li, Zhiqiang Guo, Weizhi Ma, Xinchen Luo, Min Zhang, Guorui Zhou,
- Abstract要約: 短いビデオの成長は、進化する好みに合わせてユーザーとコンテンツをマッチングする効果的なレコメンデーションシステムを必要としている。
現在のビデオレコメンデーションモデルは、主に各ビデオ全体を扱い、特定のビデオセグメントでユーザーの好みの動的な性質を見渡す。
本稿では,ハイブリッド表現モジュール,マルチモーダルなユーザビデオエンコーダ,セグメント関心デコーダを統合した革新的なモデルを提案する。
- 参考スコア(独自算出の注目度): 23.082810471266235
- License:
- Abstract: The rapid growth of short videos has necessitated effective recommender systems to match users with content tailored to their evolving preferences. Current video recommendation models primarily treat each video as a whole, overlooking the dynamic nature of user preferences with specific video segments. In contrast, our research focuses on segment-level user interest modeling, which is crucial for understanding how users' preferences evolve during video browsing. To capture users' dynamic segment interests, we propose an innovative model that integrates a hybrid representation module, a multi-modal user-video encoder, and a segment interest decoder. Our model addresses the challenges of capturing dynamic interest patterns, missing segment-level labels, and fusing different modalities, achieving precise segment-level interest prediction. We present two downstream tasks to evaluate the effectiveness of our segment interest modeling approach: video-skip prediction and short video recommendation. Our experiments on real-world short video datasets with diverse modalities show promising results on both tasks. It demonstrates that segment-level interest modeling brings a deep understanding of user engagement and enhances video recommendations. We also release a unique dataset that includes segment-level video data and diverse user behaviors, enabling further research in segment-level interest modeling. This work pioneers a novel perspective on understanding user segment-level preference, offering the potential for more personalized and engaging short video experiences.
- Abstract(参考訳): ショートビデオの急速な成長は、ユーザーの好みに合わせてユーザーをマッチングさせる効果的なレコメンデーションシステムを必要としている。
現在のビデオレコメンデーションモデルは、主に各ビデオ全体を扱い、特定のビデオセグメントでユーザーの好みの動的な性質を見渡す。
対照的に,本研究では,ビデオ閲覧中にユーザの嗜好がどのように進化するかを理解する上で重要な,セグメンテーションレベルのユーザ関心モデリングに焦点を当てている。
ユーザの動的セグメントの関心を捉えるために,ハイブリッド表現モジュール,マルチモーダルなユーザビデオエンコーダ,セグメント関心デコーダを統合した革新的なモデルを提案する。
本モデルは,動的な関心パターンの抽出,セグメントレベルのラベルの欠如,異なるモダリティの融合といった課題に対処し,精度の高いセグメントレベルの関心予測を実現する。
本稿では,ビデオスキップ予測とショートビデオレコメンデーションという,セグメント関心モデリング手法の有効性を評価するために,下流の2つのタスクを提案する。
マルチモーダル性を持つ実世界のショートビデオデータセットに関する実験は、両方のタスクにおいて有望な結果を示す。
セグメントレベルの関心モデリングは、ユーザのエンゲージメントを深く理解し、ビデオレコメンデーションを強化することを実証している。
また、セグメントレベルのビデオデータと多様なユーザ行動を含むユニークなデータセットもリリースし、セグメントレベルの関心モデリングのさらなる研究を可能にした。
この研究は、ユーザーセグメントレベルの嗜好を理解するための新しい視点を開拓し、よりパーソナライズされ、短いビデオ体験を提供する。
関連論文リスト
- Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。
VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。
AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文 参考訳(メタデータ) (2024-12-12T17:59:28Z) - Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Modeling High-order Interactions across Multi-interests for Micro-video
Reommendation [65.16624625748068]
利用者の興味表現を高めるためのセルフオーバーCoアテンションモジュールを提案します。
特に、まず相関パターンを異なるレベルでモデル化し、次に自己注意を使って特定のレベルで相関パターンをモデル化します。
論文 参考訳(メタデータ) (2021-04-01T07:20:15Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。