論文の概要: MVP: Winning Solution to SMP Challenge 2025 Video Track
- arxiv url: http://arxiv.org/abs/2507.00950v1
- Date: Tue, 01 Jul 2025 16:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.739931
- Title: MVP: Winning Solution to SMP Challenge 2025 Video Track
- Title(参考訳): MVP:SMP Challenge 2025ビデオトラックで優勝
- Authors: Liliang Ye, Yunyao Zhang, Yafeng Wu, Yi-Ping Phoebe Chen, Junqing Yu, Wei Yang, Zikai Song,
- Abstract要約: 我々は,SMP Challenge 2025のビデオトラックの優勝ソリューションであるMultimodal Video Predictor(MVP)を紹介する。
MVPは、事前訓練されたモデルから抽出されたディープビデオ機能とユーザメタデータとコンテキスト情報を統合することで、表現力のあるポスト表現を構築する。
本手法は,ソーシャルプラットフォーム上でのマルチモーダル動画人気予測の有効性と信頼性を実証し,ビデオトラックの公式評価において第1位に位置づけた。
- 参考スコア(独自算出の注目度): 16.78634288864967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media platforms serve as central hubs for content dissemination, opinion expression, and public engagement across diverse modalities. Accurately predicting the popularity of social media videos enables valuable applications in content recommendation, trend detection, and audience engagement. In this paper, we present Multimodal Video Predictor (MVP), our winning solution to the Video Track of the SMP Challenge 2025. MVP constructs expressive post representations by integrating deep video features extracted from pretrained models with user metadata and contextual information. The framework applies systematic preprocessing techniques, including log-transformations and outlier removal, to improve model robustness. A gradient-boosted regression model is trained to capture complex patterns across modalities. Our approach ranked first in the official evaluation of the Video Track, demonstrating its effectiveness and reliability for multimodal video popularity prediction on social platforms. The source code is available at https://anonymous.4open.science/r/SMPDVideo.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、コンテンツの普及、意見表現、様々なモダリティにおける公的なエンゲージメントの中心として機能している。
ソーシャルメディアビデオの人気を正確に予測することで、コンテンツレコメンデーション、トレンド検出、オーディエンスエンゲージメントに有用な応用が可能になる。
本稿では,SMP Challenge 2025のビデオトラックにおける優勝ソリューションであるMultimodal Video Predictor(MVP)を紹介する。
MVPは、事前訓練されたモデルから抽出されたディープビデオ機能とユーザメタデータとコンテキスト情報を統合することで、表現力のあるポスト表現を構築する。
このフレームワークは、モデルロバスト性を改善するために、ログ変換や外乱除去など、体系的な事前処理技術を適用している。
勾配ブースト回帰モデルは、モダリティにまたがる複雑なパターンを捉えるために訓練される。
本手法は,ソーシャルプラットフォーム上でのマルチモーダル動画人気予測の有効性と信頼性を実証し,ビデオトラックの公式評価において第1位に位置づけた。
ソースコードはhttps://anonymous.4open.science/r/SMPDVideoで公開されている。
関連論文リスト
- Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [30.6130504613716]
本稿では,ビデオ拡散モデルに特化した嗜好学習手法であるOnlineVPOを紹介する。
OnlineVPOは、ビデオ報酬モデルを使用して、簡潔なビデオフィードバックをオンザフライで提供することにより、効率的かつ効率的な選好ガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-19T18:34:50Z) - MUFM: A Mamba-Enhanced Feedback Model for Micro Video Popularity Prediction [1.7040391128945196]
ユーザフィードバックと動的イベントインタラクションにおける長期的依存関係をキャプチャするフレームワークを導入する。
大規模なオープンソースマルチモーダルデータセットに関する我々の実験は、我々のモデルが最先端のアプローチを23.2%上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-23T05:13:27Z) - Delving Deep into Engagement Prediction of Short Videos [34.38399476375175]
本研究は,ユーザインタラクションが限定されたビデオのエンゲージメント予測の難しさを深く掘り下げるものである。
Snapchatの90,000の現実世界のショートビデオからなる、実質的なデータセットを紹介します。
本手法は,映像コンテンツから映像のエンゲージメントを純粋に予測できることを示す。
論文 参考訳(メタデータ) (2024-09-30T23:57:07Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization [18.543372365239673]
提案モデルは,コンテキスト化された映像要約制御器,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
その結果, 最新手法と比較して, 精度5.88%, F1スコアが4.06%上昇し, このモデルが有効であることが示された。
論文 参考訳(メタデータ) (2021-04-26T10:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。