論文の概要: MLLM-VADStory: Domain Knowledge-Driven Multimodal LLMs for Video Ad Storyline Insights
- arxiv url: http://arxiv.org/abs/2601.07850v1
- Date: Thu, 08 Jan 2026 20:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.866748
- Title: MLLM-VADStory: Domain Knowledge-Driven Multimodal LLMs for Video Ad Storyline Insights
- Title(参考訳): MLLM-VADStory: ビデオ広告ストーリーラインインサイトのためのドメイン知識駆動型マルチモーダルLLM
- Authors: Jasmine Yang, Poppy Zhang, Shawndra Hill,
- Abstract要約: 本稿では,大規模ビデオ広告のストーリーライン理解のための洞察を定量化・生成するための,ドメイン知識誘導型マルチモーダル言語モデル(MLLM)フレームワークを提案する。
MLLM-VADStoryは、広告を機能単位に分割し、新しい広告固有の機能的役割分類を用いて各ユニットの機能を分類し、その後、データ駆動のストーリーライン構造を回復するために、広告全体で機能的シーケンスを集約する。
このフレームワークを4つの産業のサブバーティカルで5000万のソーシャルメディアビデオ広告に適用すると、ストーリーベースのクリエイティブがビデオの保持を改善することが分かる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose MLLM-VADStory, a novel domain knowledge-guided multimodal large language models (MLLM) framework to systematically quantify and generate insights for video ad storyline understanding at scale. The framework is centered on the core idea that ad narratives are structured by functional intent, with each scene unit performing a distinct communicative function, delivering product and brand-oriented information within seconds. MLLM-VADStory segments ads into functional units, classifies each unit's functionality using a novel advertising-specific functional role taxonomy, and then aggregates functional sequences across ads to recover data-driven storyline structures. Applying the framework to 50k social media video ads across four industry subverticals, we find that story-based creatives improve video retention, and we recommend top-performing story arcs to guide advertisers in creative design. Our framework demonstrates the value of using domain knowledge to guide MLLMs in generating scalable insights for video ad storylines, making it a versatile tool for understanding video creatives in general.
- Abstract(参考訳): 本稿では,MLLM-VADStoryを提案する。MLLMフレームワークは,大規模ビデオ広告のストーリーライン理解のための洞察を体系的に定量化し,生成する。
このフレームワークは、広告の物語は機能的な意図によって構成され、各シーンユニットは異なるコミュニケーション機能を実行し、製品とブランド指向の情報を数秒で提供するという中心的な考え方に基づいている。
MLLM-VADStoryは、広告を機能単位に分割し、新しい広告固有の機能的役割分類を用いて各ユニットの機能を分類し、その後、データ駆動のストーリーライン構造を回復するために、広告全体で機能的シーケンスを集約する。
このフレームワークを4つの産業のサブバーティカルで5000万のソーシャルメディアビデオ広告に適用すると、ストーリーベースのクリエイティブがビデオの保持を改善することが分かる。
本フレームワークは,ビデオ広告のストーリーラインに対するスケーラブルな洞察を生み出す上で,MLLMをガイドする上で,ドメイン知識を利用することの価値を実証する。
関連論文リスト
- Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - VC-LLM: Automated Advertisement Video Creation from Raw Footage using Multi-modal LLMs [43.50425781768217]
本稿では,高品質なショートフォーム広告ビデオの自動作成のための大規模言語モデルを用いたフレームワークであるVC-LLMを提案する。
提案手法は,高分解能な空間入力と低分解能な時間入力を利用して,ビデオクリップをより効果的に表現する。
GPT-4oをベースとしたVC-LLMは、人間が作成したビデオに匹敵するビデオを生成することができる。
論文 参考訳(メタデータ) (2025-04-08T04:35:23Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - Video Understanding with Large Language Models: A Survey [107.7736911322462]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - MM-AU:Towards Multimodal Understanding of Advertisement Videos [38.117243603403175]
複数のWebソースから8.4Kビデオ(147時間)をキュレートしたマルチモーダルマルチ言語ベンチマークMM-AUを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
論文 参考訳(メタデータ) (2023-08-27T09:11:46Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。