論文の概要: Engagement Prediction of Short Videos with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2508.02516v1
- Date: Mon, 04 Aug 2025 15:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.403408
- Title: Engagement Prediction of Short Videos with Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルによるショートビデオのエンゲージメント予測
- Authors: Wei Sun, Linhan Cao, Yuqin Cao, Weixia Zhang, Wen Wen, Kaiwei Zhang, Zijian Chen, Fangfang Lu, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: ビデオエンゲージメント予測のための大規模マルチモーダルモデル(LMM)の可能性について実験的に検討する。
VideoLLaMA2はキービデオフレーム、テキストベースのメタデータ、バックグラウンドサウンドを処理し、Qwen2.5-VLはキービデオフレームとテキストベースのメタデータのみを使用する。
2種類のモデルをアンサンブルすることで,本手法はICCV VQualA 2025 EVQA-SnapUGC Challengeにおいて,短時間のビデオエンゲージメント予測において第一位となる。
- 参考スコア(独自算出の注目度): 46.954597097369586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of user-generated content (UGC) on short-form video platforms has made video engagement prediction increasingly important for optimizing recommendation systems and guiding content creation. However, this task remains challenging due to the complex interplay of factors such as semantic content, visual quality, audio characteristics, and user background. Prior studies have leveraged various types of features from different modalities, such as visual quality, semantic content, background sound, etc., but often struggle to effectively model their cross-feature and cross-modality interactions. In this work, we empirically investigate the potential of large multimodal models (LMMs) for video engagement prediction. We adopt two representative LMMs: VideoLLaMA2, which integrates audio, visual, and language modalities, and Qwen2.5-VL, which models only visual and language modalities. Specifically, VideoLLaMA2 jointly processes key video frames, text-based metadata, and background sound, while Qwen2.5-VL utilizes only key video frames and text-based metadata. Trained on the SnapUGC dataset, both models demonstrate competitive performance against state-of-the-art baselines, showcasing the effectiveness of LMMs in engagement prediction. Notably, VideoLLaMA2 consistently outperforms Qwen2.5-VL, highlighting the importance of audio features in engagement prediction. By ensembling two types of models, our method achieves first place in the ICCV VQualA 2025 EVQA-SnapUGC Challenge on short-form video engagement prediction. The code is available at https://github.com/sunwei925/LMM-EVQA.git.
- Abstract(参考訳): ショートフォームビデオプラットフォームにおけるユーザ生成コンテンツ(UGC)の急速な普及により、レコメンデーションシステムの最適化やコンテンツ作成の指導にビデオエンゲージメントの予測がますます重要になっている。
しかし, セマンティックコンテンツ, 視覚的品質, オーディオ特性, ユーザ背景といった要素の複雑な相互作用のため, この課題は依然として困難なままである。
以前の研究では、視覚的品質、セマンティックな内容、背景の音など、様々なモダリティから様々なタイプの特徴を生かしてきたが、しばしば、機能的・相互モダリティの相互作用を効果的にモデル化するのに苦労した。
本研究では,ビデオエンゲージメント予測のための大規模マルチモーダルモデル(LMM)の可能性について実験的に検討する。
音声・視覚・言語モダリティを統合したVideoLLaMA2と、視覚・言語モダリティのみをモデル化したQwen2.5-VLの2つの代表LMMを採用する。
具体的には、VideoLLaMA2はキービデオフレーム、テキストベースのメタデータ、バックグラウンドサウンドを共同で処理し、Qwen2.5-VLはキービデオフレームとテキストベースのメタデータのみを使用する。
SnapUGCデータセットに基づいてトレーニングされた両モデルは、最先端のベースラインに対する競合性能を示し、エンゲージメント予測におけるLMMの有効性を示している。
特にVideoLLaMA2はQwen2.5-VLを一貫して上回り、エンゲージメント予測におけるオーディオ機能の重要性を強調している。
2種類のモデルをアンサンブルすることで,本手法はICCV VQualA 2025 EVQA-SnapUGC Challengeにおいて,短時間のビデオエンゲージメント予測において第一位となる。
コードはhttps://github.com/sunwei925/LMM-EVQA.gitで公開されている。
関連論文リスト
- MF2Summ: Multimodal Fusion for Video Summarization with Temporal Alignment [5.922172844641853]
本稿では,マルチモーダルコンテンツ理解に基づく新しい映像要約モデルであるMF2Summを紹介する。
MF2Summは、特徴抽出、モーダル間アテンション相互作用、特徴融合、セグメント予測、キーショット選択という5段階のプロセスを採用している。
SumMeおよびTVSumデータセットの実験結果から,MF2Summが競合性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-06-12T07:32:51Z) - CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval [70.9990850395981]
CLaMRは、ビデオフレーム、書き起こされた音声、画面上のテキスト、メタデータの4つのモダリティを共同でインデックスするマルチモーダルな遅延相互作用レトリバーである。
CLaMRは2つの重要な革新を通じて動的モダリティ選択を強化するために訓練されている。
論文 参考訳(メタデータ) (2025-06-06T15:02:30Z) - PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling [78.61911985138795]
On-AVEP(On-AVEP: Online Audio-Visual Event Parsing)は、入ってくる映像ストリームを逐次解析することで、音声、視覚、視覚イベントを解析するための新しいパラダイムである。
本稿では,(a)予測的マルチモーダル・フューチャー・モデリングが特徴とする予測的未来・モデリング・フレームワークを提案する。
実験により、PreFMは、パラメータが大幅に少ない大きなマージンで最先端の手法を著しく上回ることが示された。
論文 参考訳(メタデータ) (2025-05-29T06:46:19Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.887164304514101]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。