論文の概要: MM-AU:Towards Multimodal Understanding of Advertisement Videos
- arxiv url: http://arxiv.org/abs/2308.14052v1
- Date: Sun, 27 Aug 2023 09:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 17:16:34.218779
- Title: MM-AU:Towards Multimodal Understanding of Advertisement Videos
- Title(参考訳): MM-AU:動画のマルチモーダル理解に向けて
- Authors: Digbalay Bose, Rajat Hebbar, Tiantian Feng, Krishna Somandepalli,
Anfeng Xu, Shrikanth Narayanan
- Abstract要約: 複数のWebソースから8.4Kビデオ(147時間)をキュレートしたマルチモーダルマルチ言語ベンチマークMM-AUを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
- 参考スコア(独自算出の注目度): 38.117243603403175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Advertisement videos (ads) play an integral part in the domain of Internet
e-commerce as they amplify the reach of particular products to a broad audience
or can serve as a medium to raise awareness about specific issues through
concise narrative structures. The narrative structures of advertisements
involve several elements like reasoning about the broad content (topic and the
underlying message) and examining fine-grained details involving the transition
of perceived tone due to the specific sequence of events and interaction among
characters. In this work, to facilitate the understanding of advertisements
along the three important dimensions of topic categorization, perceived tone
transition, and social message detection, we introduce a multimodal
multilingual benchmark called MM-AU composed of over 8.4K videos (147 hours)
curated from multiple web sources. We explore multiple zero-shot reasoning
baselines through the application of large language models on the ads
transcripts. Further, we demonstrate that leveraging signals from multiple
modalities, including audio, video, and text, in multimodal transformer-based
supervised models leads to improved performance compared to unimodal
approaches.
- Abstract(参考訳): 動画(ads)はインターネットのeコマースの領域において不可欠な役割を担い、特定の商品の幅広いオーディエンスへのリーチを増幅したり、簡潔なナラティブ構造を通じて特定の問題に対する認識を高める媒体として機能したりします。
広告の物語構造は、幅広い内容(トピックとメッセージ)についての推論や、特定の出来事の順序とキャラクター間の相互作用による知覚的なトーンの遷移に関する細かな詳細を調べるなど、いくつかの要素を含んでいる。
本研究では,トピック分類,知覚的トーン遷移,ソーシャルメッセージ検出の3つの重要な側面に沿った広告の理解を容易にするために,複数のWebソースからキュレートされた8.4Kビデオ(147時間)からなるMM-AUというマルチモーダルマルチランガルベンチマークを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
さらに,マルチモーダルトランスフォーマを用いた教師付きモデルにおいて,音声,ビデオ,テキストなど複数のモーダルの信号を活用することで,ユニモーダルアプローチに比べて性能の向上が期待できることを示す。
関連論文リスト
- Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality
Attention [8.382710169577447]
マルチモーダルデータから重要な情報を抽出する方法は、ミッドフュージョンアーキテクチャに依存している。
本稿では,マルチモーダル入力を深層マルチモーダルシーケンスセットの集合として考える新しい概念を提案する。
我々の概念は、以前のセットレベルモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-09-07T13:25:09Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Multi-modal Representation Learning for Video Advertisement Content
Structuring [10.45050088240847]
ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。
ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。
ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
論文 参考訳(メタデータ) (2021-09-04T09:08:29Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - MONAH: Multi-Modal Narratives for Humans to analyze conversations [9.178828168133206]
本稿では,マルチモーダルデータストリームを用いて,ビデオ録画会話の口頭転写を自動拡張するシステムを提案する。
このシステムは、事前処理ルールのセットを使用して、マルチモーダルアノテーションを頂点のトランスクリプトに織り込み、解釈性を促進する。
論文 参考訳(メタデータ) (2021-01-18T21:55:58Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。