論文の概要: AdSum: Two-stream Audio-visual Summarization for Automated Video Advertisement Clipping
- arxiv url: http://arxiv.org/abs/2510.26569v1
- Date: Thu, 30 Oct 2025 14:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.869558
- Title: AdSum: Two-stream Audio-visual Summarization for Automated Video Advertisement Clipping
- Title(参考訳): AdSum:2ストリームのオーディオ・ビジュアル・サマライゼーションによる自動動画クリッピング
- Authors: Wen Xie, Yanjun Zhu, Gijs Overgoor, Yakov Bart, Agata Lapedriza Garcia, Sarah Ostadabbas,
- Abstract要約: 本稿では,映像要約技術を用いた自動ビデオ広告クリッピングのためのフレームワークを提案する。
私たちは、特に広告用に調整されたショットセレクション問題として、最初にビデオクリップをフレーム化した人物です。
広告特化データセットの欠如に対処するため,30秒広告と15秒広告の102対からなる新しいデータセットであるAdSum204を提案する。
- 参考スコア(独自算出の注目度): 6.340098119165037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advertisers commonly need multiple versions of the same advertisement (ad) at varying durations for a single campaign. The traditional approach involves manually selecting and re-editing shots from longer video ads to create shorter versions, which is labor-intensive and time-consuming. In this paper, we introduce a framework for automated video ad clipping using video summarization techniques. We are the first to frame video clipping as a shot selection problem, tailored specifically for advertising. Unlike existing general video summarization methods that primarily focus on visual content, our approach emphasizes the critical role of audio in advertising. To achieve this, we develop a two-stream audio-visual fusion model that predicts the importance of video frames, where importance is defined as the likelihood of a frame being selected in the firm-produced short ad. To address the lack of ad-specific datasets, we present AdSum204, a novel dataset comprising 102 pairs of 30-second and 15-second ads from real advertising campaigns. Extensive experiments demonstrate that our model outperforms state-of-the-art methods across various metrics, including Average Precision, Area Under Curve, Spearman, and Kendall.
- Abstract(参考訳): 広告主は、通常、単一のキャンペーンのために同じ広告(ad)の複数のバージョンを必要とする。
従来のアプローチでは、より長いビデオ広告から写真を手動で選択して編集し、より短いバージョンを作る。
本稿では,映像要約技術を用いた自動ビデオ広告クリッピングのためのフレームワークを提案する。
私たちは、特に広告用に調整されたショットセレクション問題として、最初にビデオクリップをフレーム化した人物です。
視覚コンテンツに主眼を置いている既存の一般的な映像要約手法とは異なり,広告における音声の重要性を強調している。
そこで我々は,映像フレームの重要性を予測できる2ストリーム音声-視覚融合モデルを構築した。
広告特化データセットの欠如に対処するため,広告キャンペーンから102対の30秒と15秒の広告を含む新しいデータセットであるAdSum204を提案する。
大規模な実験により、我々のモデルは平均精度、エリアアンダーカーブ、スピアマン、ケンドールなど、様々な指標で最先端の手法より優れていることが示された。
関連論文リスト
- SUMMA: A Multimodal Large Language Model for Advertisement Summarization [15.514886325064792]
本研究では,ビデオ広告を商品価値の高いコンテンツを強調する要約に加工するモデルであるSUMMAを提案する。
SUMMAは2段階の訓練戦略-マルチモーダル指導型微調整と強化学習によって開発される。
オンライン実験は、統計的に広告収入が1.5%増加したことを示している。
論文 参考訳(メタデータ) (2025-08-28T09:19:53Z) - Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation [110.79299467093006]
ビデオ理解の基本単位として「ショット」を活用する2段階フレームワークを提案する。
これには、隣接するショットへの時間的コンテキストの拡張や、ショットスケールやスレッド構造などのフィルム文法装置の導入が含まれる。
我々の手法は、オープンソースとプロプライエタリなVisual-Language Modelsの両方と互換性がある。
論文 参考訳(メタデータ) (2025-04-01T17:59:57Z) - Long-Term Ad Memorability: Understanding & Generating Memorable Ads [54.23854539909078]
マーケティングやブランドビルディングにおける長期記憶の重要性にもかかわらず、これまで広告の記憶可能性に関する大規模な研究は行われていない。
276のブランドをカバーする1749の参加者と2205の広告からなる,最初の記憶可能性データセットであるLAMBDAをリリースする。
異なる参加者のサブポピュレーションや広告タイプに対する統計的テストを実行すると、広告を記憶可能なものにするための興味深い洞察がたくさん見つかる。
本稿では,自動アノテートデータを活用することで,高品質な記憶可能な広告生成モデルを構築するためのスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2023-09-01T10:27:04Z) - Multi-modal Representation Learning for Video Advertisement Content
Structuring [10.45050088240847]
ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。
ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。
ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
論文 参考訳(メタデータ) (2021-09-04T09:08:29Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - Predicting Online Video Advertising Effects with Multimodal Deep
Learning [33.20913249848369]
ビデオ広告のクリックスルー率(CTR)を予測し,CTRを決定する要因を解析する手法を提案する。
本稿では,オンラインビデオ広告のマルチモーダル性を生かして,効果を正確に予測するための最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-22T06:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。