論文の概要: Multi-modal Representation Learning for Video Advertisement Content
Structuring
- arxiv url: http://arxiv.org/abs/2109.06637v1
- Date: Sat, 4 Sep 2021 09:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-19 13:43:43.396784
- Title: Multi-modal Representation Learning for Video Advertisement Content
Structuring
- Title(参考訳): ビデオ広告コンテンツ構造化のためのマルチモーダル表現学習
- Authors: Daya Guo and Zhaoyang Zeng
- Abstract要約: ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。
ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。
ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
- 参考スコア(独自算出の注目度): 10.45050088240847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video advertisement content structuring aims to segment a given video
advertisement and label each segment on various dimensions, such as
presentation form, scene, and style. Different from real-life videos, video
advertisements contain sufficient and useful multi-modal content like caption
and speech, which provides crucial video semantics and would enhance the
structuring process. In this paper, we propose a multi-modal encoder to learn
multi-modal representation from video advertisements by interacting between
video-audio and text. Based on multi-modal representation, we then apply
Boundary-Matching Network to generate temporal proposals. To make the proposals
more accurate, we refine generated proposals by scene-guided alignment and
re-ranking. Finally, we incorporate proposal located embeddings into the
introduced multi-modal encoder to capture temporal relationships between local
features of each proposal and global features of the whole video for
classification. Experimental results show that our method achieves
significantly improvement compared with several baselines and Rank 1 on the
task of Multi-modal Ads Video Understanding in ACM Multimedia 2021 Grand
Challenge. Ablation study further shows that leveraging multi-modal content
like caption and speech in video advertisements significantly improve the
performance.
- Abstract(参考訳): ビデオ広告コンテンツ構造化は、所定のビデオ広告をセグメント化し、各セグメントをプレゼンテーション形式、シーン、スタイルといった様々な次元にラベル付けすることを目的としている。
実際のビデオとは違って、ビデオ広告はキャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含み、重要なビデオセマンティクスを提供し、構造化プロセスを強化する。
本稿では,ビデオオーディオとテキストの相互作用により,ビデオ広告からマルチモーダル表現を学ぶマルチモーダルエンコーダを提案する。
マルチモーダル表現に基づき、境界マッチングネットワークを適用して時間的提案を生成する。
提案をより正確にするために、シーン誘導アライメントと再ランク付けにより生成された提案を精査する。
最後に,提案したマルチモーダルエンコーダに位置埋め込みを組み込んで,各提案の局所的特徴とビデオ全体のグローバル的特徴との時間的関係を捉えて分類する。
実験の結果,acmマルチメディア2021グランドチャレンジにおけるマルチモーダル広告ビデオ理解課題において,複数のベースラインとランク1に比べて有意に改善が得られた。
さらに,ビデオ広告におけるキャプションや音声などのマルチモーダルコンテンツを活用することで,パフォーマンスが著しく向上することを示す。
関連論文リスト
- ContextIQ: A Multimodal Expert-Based Video Retrieval System for Contextual Advertising [2.330164376631038]
コンテキスト広告は、ユーザーが見ているコンテンツに沿った広告を提供する。
共同マルチモーダルトレーニングに基づく現在のテキスト・ビデオ検索モデルでは,大規模なデータセットと計算資源が要求される。
本研究では,コンテキスト広告に特化して設計されたマルチモーダル専門家によるビデオ検索システムであるContextIQを紹介する。
論文 参考訳(メタデータ) (2024-10-29T17:01:05Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - MM-AU:Towards Multimodal Understanding of Advertisement Videos [38.117243603403175]
複数のWebソースから8.4Kビデオ(147時間)をキュレートしたマルチモーダルマルチ言語ベンチマークMM-AUを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
論文 参考訳(メタデータ) (2023-08-27T09:11:46Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。