論文の概要: MM-AU:Towards Multimodal Understanding of Advertisement Videos
- arxiv url: http://arxiv.org/abs/2308.14052v1
- Date: Sun, 27 Aug 2023 09:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 17:16:34.218779
- Title: MM-AU:Towards Multimodal Understanding of Advertisement Videos
- Title(参考訳): MM-AU:動画のマルチモーダル理解に向けて
- Authors: Digbalay Bose, Rajat Hebbar, Tiantian Feng, Krishna Somandepalli,
Anfeng Xu, Shrikanth Narayanan
- Abstract要約: 複数のWebソースから8.4Kビデオ(147時間)をキュレートしたマルチモーダルマルチ言語ベンチマークMM-AUを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
- 参考スコア(独自算出の注目度): 38.117243603403175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Advertisement videos (ads) play an integral part in the domain of Internet
e-commerce as they amplify the reach of particular products to a broad audience
or can serve as a medium to raise awareness about specific issues through
concise narrative structures. The narrative structures of advertisements
involve several elements like reasoning about the broad content (topic and the
underlying message) and examining fine-grained details involving the transition
of perceived tone due to the specific sequence of events and interaction among
characters. In this work, to facilitate the understanding of advertisements
along the three important dimensions of topic categorization, perceived tone
transition, and social message detection, we introduce a multimodal
multilingual benchmark called MM-AU composed of over 8.4K videos (147 hours)
curated from multiple web sources. We explore multiple zero-shot reasoning
baselines through the application of large language models on the ads
transcripts. Further, we demonstrate that leveraging signals from multiple
modalities, including audio, video, and text, in multimodal transformer-based
supervised models leads to improved performance compared to unimodal
approaches.
- Abstract(参考訳): 動画(ads)はインターネットのeコマースの領域において不可欠な役割を担い、特定の商品の幅広いオーディエンスへのリーチを増幅したり、簡潔なナラティブ構造を通じて特定の問題に対する認識を高める媒体として機能したりします。
広告の物語構造は、幅広い内容(トピックとメッセージ)についての推論や、特定の出来事の順序とキャラクター間の相互作用による知覚的なトーンの遷移に関する細かな詳細を調べるなど、いくつかの要素を含んでいる。
本研究では,トピック分類,知覚的トーン遷移,ソーシャルメッセージ検出の3つの重要な側面に沿った広告の理解を容易にするために,複数のWebソースからキュレートされた8.4Kビデオ(147時間)からなるMM-AUというマルチモーダルマルチランガルベンチマークを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
さらに,マルチモーダルトランスフォーマを用いた教師付きモデルにおいて,音声,ビデオ,テキストなど複数のモーダルの信号を活用することで,ユニモーダルアプローチに比べて性能の向上が期待できることを示す。
関連論文リスト
- Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality
Attention [8.382710169577447]
マルチモーダルデータから重要な情報を抽出する方法は、ミッドフュージョンアーキテクチャに依存している。
本稿では,マルチモーダル入力を深層マルチモーダルシーケンスセットの集合として考える新しい概念を提案する。
我々の概念は、以前のセットレベルモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-09-07T13:25:09Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Multi-modal Representation Learning for Video Advertisement Content
Structuring [10.45050088240847]
ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。
ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。
ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
論文 参考訳(メタデータ) (2021-09-04T09:08:29Z) - MONAH: Multi-Modal Narratives for Humans to analyze conversations [9.178828168133206]
本稿では,マルチモーダルデータストリームを用いて,ビデオ録画会話の口頭転写を自動拡張するシステムを提案する。
このシステムは、事前処理ルールのセットを使用して、マルチモーダルアノテーションを頂点のトランスクリプトに織り込み、解釈性を促進する。
論文 参考訳(メタデータ) (2021-01-18T21:55:58Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。