論文の概要: Short-Form Video Recommendations with Multimodal Embeddings: Addressing Cold-Start and Bias Challenges
- arxiv url: http://arxiv.org/abs/2507.19346v1
- Date: Fri, 25 Jul 2025 14:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.002077
- Title: Short-Form Video Recommendations with Multimodal Embeddings: Addressing Cold-Start and Bias Challenges
- Title(参考訳): マルチモーダル埋め込みを用いた短時間ビデオレコメンデーション:コールドスタートとバイアス問題への取り組み
- Authors: Andrii Dzhoha, Katya Mirylenka, Egor Malykh, Marco-Andrea Buchmann, Francesca Catino,
- Abstract要約: 近年、ソーシャルメディアユーザーはショートフォームビデオプラットフォームにかなりの時間を費やしている。
eコマースなど他のドメインの確立されたプラットフォームは、ユーザをエンゲージするショートフォームビデオコンテンツを導入し始めた。
これにより、特に新しいビデオ体験を始める際に、レコメンデーションシステムに新たな課題が生まれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, social media users have spent significant amounts of time on short-form video platforms. As a result, established platforms in other domains, such as e-commerce, have begun introducing short-form video content to engage users and increase their time spent on the platform. The success of these experiences is due not only to the content itself but also to a unique UI innovation: instead of offering users a list of choices to click, platforms actively recommend content for users to watch one at a time. This creates new challenges for recommender systems, especially when launching a new video experience. Beyond the limited interaction data, immersive feed experiences introduce stronger position bias due to the UI and duration bias when optimizing for watch-time, as models tend to favor shorter videos. These issues, together with the feedback loop inherent in recommender systems, make it difficult to build effective solutions. In this paper, we highlight the challenges faced when introducing a new short-form video experience and present our experience showing that, even with sufficient video interaction data, it can be more beneficial to leverage a video retrieval system using a fine-tuned multimodal vision-language model to overcome these challenges. This approach demonstrated greater effectiveness compared to conventional supervised learning methods in online experiments conducted on our e-commerce platform.
- Abstract(参考訳): 近年、ソーシャルメディアユーザーはショートフォームビデオプラットフォームにかなりの時間を費やしている。
結果として、eコマースなど他のドメインの確立したプラットフォームは、ユーザをエンゲージメントし、プラットフォームで費やす時間を増大させるために、短い形式のビデオコンテンツを導入し始めている。
これらの体験の成功は、コンテンツそのものだけでなく、ユニークなUIの革新にも起因している。
これにより、特に新しいビデオ体験を始める際に、レコメンデーションシステムに新たな課題が生まれる。
限られたインタラクションデータに加えて、没入的なフィードエクスペリエンスは、より短いビデオを好む傾向にあるため、ウォッチタイムを最適化する際のUIと持続時間のバイアスによって、より強力な位置バイアスをもたらす。
これらの問題は、レコメンデータシステムに固有のフィードバックループとともに、効率的なソリューションを構築するのを困難にしている。
本稿では,新しいショートフォームビデオエクスペリエンスを導入する際の課題を強調し,十分なビデオインタラクションデータであっても,細調整されたマルチモーダル視覚言語モデルを用いて映像検索システムを活用することで,これらの課題を克服できることを示す。
本手法は,電子商取引プラットフォーム上で実施されたオンライン実験において,従来の教師あり学習手法と比較して,より有効性を示した。
関連論文リスト
- ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - Vid-SME: Membership Inference Attacks against Large Video Understanding Models [56.31088116526825]
ビデオ理解モデル(VULLM)で使用されるビデオデータに適した,最初の会員推論手法であるVid-SMEを紹介する。
自然なビデオフレームと時間的に反転したビデオフレームのSME差を利用して、Vid-SMEは、与えられたビデオがモデルのトレーニングセットの一部であるかどうかを判断するロバストなメンバーシップスコアを導出する。
様々な自己学習およびオープンソースVULLMの実験は、Vid-SMEの強力な有効性を示している。
論文 参考訳(メタデータ) (2025-05-29T13:17:25Z) - Switch-a-View: View Selection Learned from Unlabeled In-the-wild Videos [71.01549400773197]
ハウツービデオを作成する際に,各時点に表示すべき視点を自動的に選択するモデルであるSWITCH-A-VIEWを紹介する。
トレーニングビデオに擬似ラベルのセグメントを第一の視点に配置する作業を行う。
一方のハウツービデオにおける視覚的コンテンツと音声的コンテンツの間のパターンと,他方のビュー・スウィッチ・モーメントを見出す。
論文 参考訳(メタデータ) (2024-12-24T12:16:43Z) - Shorter Is Different: Characterizing the Dynamics of Short-Form Video Platforms [10.078299014855622]
われわれは中国最大のショートフォームビデオプラットフォームであるKuaishouの大規模データ駆動分析を行っている。
あらゆるカテゴリーでアップロードされた2億4800万本のビデオに基づいて、長大なビデオプラットフォームとの違いを識別する。
ビデオはKaishou上で複数回短縮され、興味に基づくビデオではなく、生活関連ビデオによって過剰に表現される特徴的なカテゴリー分布が示される。
論文 参考訳(メタデータ) (2024-10-21T14:37:26Z) - SWaT: Statistical Modeling of Video Watch Time through User Behavior Analysis [15.246875830547056]
本稿では,ビデオの視聴時の様々なユーザの行動仮定を統計的視聴時間モデルに変換するホワイトボックス統計フレームワークを提案する。
当社のモデルは、2つのパブリックデータセット、大規模なオフライン産業データセット、および数億人のデイリーアクティブユーザを持つ短いビデオプラットフォーム上でオンラインA/Bテストで広範囲にテストしています。
論文 参考訳(メタデータ) (2024-08-14T18:19:35Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,バスケットボールやサッカーなどの身体活動を行う人の映像から,アクション可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,その人が何をしているか,何が改善できるかを解説した専門家のコメントを生成する。
Ego-Exo4Dの[29]ビデオの熟練した活動と専門家の解説を、強力な言語モデルとともに活用して、このタスクのための弱い教師付きトレーニングデータセットを作成する方法を示す。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Multimodal Pretraining and Generation for Recommendation: A Tutorial [54.07497722719509]
チュートリアルは、マルチモーダル事前学習、マルチモーダル生成、産業アプリケーションという3つの部分で構成されている。
マルチモーダル・レコメンデーションの迅速な理解を促進することを目的としており、この進化する景観の今後の発展について有意義な議論を促進することを目的としている。
論文 参考訳(メタデータ) (2024-05-11T06:15:22Z) - User Welfare Optimization in Recommender Systems with Competing Content Creators [65.25721571688369]
本研究では,コンテンツ制作者間での競争ゲーム環境下で,システム側ユーザ福祉の最適化を行う。
本稿では,推奨コンテンツの満足度に基づいて,各ユーザの重みの列を動的に計算する,プラットフォームのためのアルゴリズムソリューションを提案する。
これらの重みはレコメンデーションポリシーやポストレコメンデーション報酬を調整するメカニズムの設計に利用され、それによってクリエイターのコンテンツ制作戦略に影響を与える。
論文 参考訳(メタデータ) (2024-04-28T21:09:52Z) - ChatVideo: A Tracklet-centric Multimodal and Versatile Video
Understanding System [119.51012668709502]
マルチモーダル・多目的ビデオ理解のためのビジョンを提示し,プロトタイプシステム,システムを提案する。
本システムは,トラックレットを基本映像単位として扱う,トラックレット中心のパラダイムに基づいて構築されている。
検出されたすべてのトラックレットはデータベースに格納され、データベースマネージャを介してユーザと対話する。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - Two-Stage Constrained Actor-Critic for Short Video Recommendation [23.12631658373264]
CMDP(Constrained Markov Decision Process)として短いビデオレコメンデーションの問題を定式化する。
本稿では,各補助信号の最適化のための2段階制約付きアクター批判手法を提案する。
我々の手法は、時計時間と相互作用の両面で、他のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2023-02-03T12:02:54Z) - Constrained Reinforcement Learning for Short Video Recommendation [18.492477839791274]
ソーシャルメディアプラットフォーム上のショートビデオは、レコメンデーターシステムの最適化に新たな課題をもたらす。
アクター・クリティカルな枠組みに基づく2段階強化学習手法を提案する。
当社のアプローチは,ユーザエクスペリエンスを最適化するために,運用システムで完全にローンチされています。
論文 参考訳(メタデータ) (2022-05-26T09:36:20Z) - Short Video-based Advertisements Evaluation System: Self-Organizing
Learning Approach [22.2568038582329]
本稿では,ユーザ行動予測のためのエンドツーエンドの自己組織化フレームワークを提案する。
我々のモデルは、トレーニングデータを通じて、ニューラルネットワークアーキテクチャの最適トポロジと最適な重みを学習することができる。
論文 参考訳(メタデータ) (2020-10-23T20:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。