論文の概要: Multi-modal Representation Learning for Video Advertisement Content
Structuring
- arxiv url: http://arxiv.org/abs/2109.06637v1
- Date: Sat, 4 Sep 2021 09:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-19 13:43:43.396784
- Title: Multi-modal Representation Learning for Video Advertisement Content
Structuring
- Title(参考訳): ビデオ広告コンテンツ構造化のためのマルチモーダル表現学習
- Authors: Daya Guo and Zhaoyang Zeng
- Abstract要約: ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。
ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。
ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
- 参考スコア(独自算出の注目度): 10.45050088240847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video advertisement content structuring aims to segment a given video
advertisement and label each segment on various dimensions, such as
presentation form, scene, and style. Different from real-life videos, video
advertisements contain sufficient and useful multi-modal content like caption
and speech, which provides crucial video semantics and would enhance the
structuring process. In this paper, we propose a multi-modal encoder to learn
multi-modal representation from video advertisements by interacting between
video-audio and text. Based on multi-modal representation, we then apply
Boundary-Matching Network to generate temporal proposals. To make the proposals
more accurate, we refine generated proposals by scene-guided alignment and
re-ranking. Finally, we incorporate proposal located embeddings into the
introduced multi-modal encoder to capture temporal relationships between local
features of each proposal and global features of the whole video for
classification. Experimental results show that our method achieves
significantly improvement compared with several baselines and Rank 1 on the
task of Multi-modal Ads Video Understanding in ACM Multimedia 2021 Grand
Challenge. Ablation study further shows that leveraging multi-modal content
like caption and speech in video advertisements significantly improve the
performance.
- Abstract(参考訳): ビデオ広告コンテンツ構造化は、所定のビデオ広告をセグメント化し、各セグメントをプレゼンテーション形式、シーン、スタイルといった様々な次元にラベル付けすることを目的としている。
実際のビデオとは違って、ビデオ広告はキャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含み、重要なビデオセマンティクスを提供し、構造化プロセスを強化する。
本稿では,ビデオオーディオとテキストの相互作用により,ビデオ広告からマルチモーダル表現を学ぶマルチモーダルエンコーダを提案する。
マルチモーダル表現に基づき、境界マッチングネットワークを適用して時間的提案を生成する。
提案をより正確にするために、シーン誘導アライメントと再ランク付けにより生成された提案を精査する。
最後に,提案したマルチモーダルエンコーダに位置埋め込みを組み込んで,各提案の局所的特徴とビデオ全体のグローバル的特徴との時間的関係を捉えて分類する。
実験の結果,acmマルチメディア2021グランドチャレンジにおけるマルチモーダル広告ビデオ理解課題において,複数のベースラインとランク1に比べて有意に改善が得られた。
さらに,ビデオ広告におけるキャプションや音声などのマルチモーダルコンテンツを活用することで,パフォーマンスが著しく向上することを示す。
関連論文リスト
- VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - MM-AU:Towards Multimodal Understanding of Advertisement Videos [38.117243603403175]
複数のWebソースから8.4Kビデオ(147時間)をキュレートしたマルチモーダルマルチ言語ベンチマークMM-AUを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
論文 参考訳(メタデータ) (2023-08-27T09:11:46Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Multi-modal Segment Assemblage Network for Ad Video Editing with
Importance-Coherence Reward [34.06878258459702]
動画編集は、広告ビデオを短いビデオに自動的に編集し、一貫性のあるコンテンツと広告主が伝える重要な情報を保持することを目的としています。
既存の手法はビデオセグメンテーションの段階では良好に機能するが、セグメンテーションの段階では余分な煩雑なモデルに依存し、性能が劣る。
本稿では,効率よく一貫性のあるセグメントアセンブラタスクをエンド・ツー・エンドで実現可能なM-SANを提案する。
論文 参考訳(メタデータ) (2022-09-25T06:51:45Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。