論文の概要: Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations
- arxiv url: http://arxiv.org/abs/2508.09789v1
- Date: Wed, 13 Aug 2025 13:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.898417
- Title: Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations
- Title(参考訳): ビデオレコメンデーションを支援するマルチモーダル大言語モデルで見るもの
- Authors: Marco De Nadai, Andreas Damianou, Mounia Lalmas,
- Abstract要約: 既存のビデオレコメンデータシステムは、ユーザ定義のメタデータや、特殊なエンコーダによって抽出された低レベルの視覚的および音響的信号に依存している。
本稿では,レコメンデーションパイプラインに高レベルのセマンティクスを注入する,システムに依存しないゼロファインタニングフレームワークを提案する。
MLLM出力と最先端のテキストエンコーダを用いて、標準の協調的、コンテンツベース、生成的レコメンデータに入力する。
- 参考スコア(独自算出の注目度): 9.236723273675603
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Existing video recommender systems rely primarily on user-defined metadata or on low-level visual and acoustic signals extracted by specialised encoders. These low-level features describe what appears on the screen but miss deeper semantics such as intent, humour, and world knowledge that make clips resonate with viewers. For example, is a 30-second clip simply a singer on a rooftop, or an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such distinctions are critical to personalised recommendations yet remain invisible to traditional encoding pipelines. In this paper, we introduce a simple, recommendation system-agnostic zero-finetuning framework that injects high-level semantics into the recommendation pipeline by prompting an off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip into a rich natural-language description (e.g. "a superhero parody with slapstick fights and orchestral stabs"), bridging the gap between raw content and user intent. We use MLLM output with a state-of-the-art text encoder and feed it into standard collaborative, content-based, and generative recommenders. On the MicroLens-100K dataset, which emulates user interactions with TikTok-style videos, our framework consistently surpasses conventional video, audio, and metadata features in five representative models. Our findings highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to build more intent-aware video recommenders.
- Abstract(参考訳): 既存のビデオレコメンデータシステムは、主にユーザ定義のメタデータや、特殊なエンコーダによって抽出された低レベルの視覚的および音響的信号に依存している。
これらの低レベルの機能は画面に現れるものを表現しているが、視聴者とビデオクリップを共鳴させる意図、ユーモア、世界的知識といった深い意味を見逃している。
例えば、30秒のクリップは単に屋上の歌手なのか、それともトルコのカッパドキアの妖精の煙突の中で撮影された皮肉なパロディなのか?
このような区別はパーソナライズされたレコメンデーションにとって重要であるが、従来のエンコーディングパイプラインには見えないままである。
本稿では,既製のマルチモーダル大言語モデル(MLLM)によって,各クリップをリッチな自然言語記述(例:「スラップスティックの喧嘩とオーケストラのステーブを持つスーパーヒーローパロディ」)に要約し,生コンテンツとユーザ意図のギャップを埋めることによって,推薦パイプラインに高レベルの意味論を注入する,シンプルなシステムに依存しないゼロファインタニングフレームワークを提案する。
MLLM出力を最先端のテキストエンコーダで使用して,標準の協調的,コンテンツベース,生成的レコメンデータに供給する。
また,TikTokスタイルの動画とユーザインタラクションをエミュレートするMicroLens-100Kデータセットでは,従来のビデオ,音声,メタデータを5つの代表的なモデルで一貫して上回っている。
本研究は,MLLMをオンザフライの知識抽出機として活用し,より意図を意識したビデオレコメンデータを構築することの約束を強調した。
関連論文リスト
- Toward Scalable Video Narration: A Training-free Approach Using Multimodal Large Language Models [10.585096070697348]
本稿では,ビデオキャプションを高密度に生成する新しいトレーニングフリーパイプラインであるVideoNarratorを紹介する。
VideoNarratorは、既製のMLLMとビジュアル言語モデルがキャプションジェネレータとして機能する柔軟なパイプラインを活用することで、課題に対処する。
実験の結果,これらの成分の相乗的相互作用はビデオナレーションの品質と精度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-22T22:16:37Z) - UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks [3.466119510238668]
現実世界のユーザー生成ビデオ、特にTikTokのようなプラットフォームでは、リッチでインターツウィンドなオーディオビジュアルコンテンツがしばしば表示される。
既存のビデオキャプションベンチマークとモデルは、シーンダイナミクス、話者意図、物語コンテキストを伝達する際のオーディオの重要な役割を見越して、主に視覚中心のままである。
これらの課題に対処するために,ショートフォームのユーザ生成ビデオの完全なキャプションに特化して設計された,新しいベンチマークおよびモデルフレームワークである-VideoCapを紹介した。
論文 参考訳(メタデータ) (2025-07-15T14:08:29Z) - DisCo: Towards Distinct and Coherent Visual Encapsulation in Video MLLMs [28.998923104606614]
DisCoは、ビデオMLLMに対して意味的に区別され、時間的に一貫性のある視覚トークンを提供するために設計された視覚カプセル化手法である。
DisCoは、様々なビデオ理解ベンチマークで過去の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-07-14T14:05:19Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。