論文の概要: A Multimodal Framework for Video Ads Understanding
- arxiv url: http://arxiv.org/abs/2108.12868v1
- Date: Sun, 29 Aug 2021 16:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 01:54:44.216419
- Title: A Multimodal Framework for Video Ads Understanding
- Title(参考訳): ビデオ広告理解のためのマルチモーダルフレームワーク
- Authors: Zejia Weng, Lingchen Meng, Rui Wang, Zuxuan Wu, Yu-Gang Jiang
- Abstract要約: 広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
- 参考スコア(独自算出の注目度): 64.70769354696019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing trend in placing video advertisements on social platforms
for online marketing, which demands automatic approaches to understand the
contents of advertisements effectively. Taking the 2021 TAAC competition as an
opportunity, we developed a multimodal system to improve the ability of
structured analysis of advertising video content. In our framework, we break
down the video structuring analysis problem into two tasks, i.e., scene
segmentation and multi-modal tagging. In scene segmentation, we build upon a
temporal convolution module for temporal modeling to predict whether adjacent
frames belong to the same scene. In multi-modal tagging, we first compute
clip-level visual features by aggregating frame-level features with
NeXt-SoftDBoF. The visual features are further complemented with textual
features that are derived using a global-local attention mechanism to extract
useful information from OCR (Optical Character Recognition) and ASR (Audio
Speech Recognition) outputs. Our solution achieved a score of 0.2470 measured
in consideration of localization and prediction accuracy, ranking fourth in the
2021 TAAC final leaderboard.
- Abstract(参考訳): オンラインマーケティングのためのソーシャルプラットフォームにビデオ広告を配置する傾向が高まり、広告の内容を理解するための自動的アプローチが求められている。
2021年のTAACコンペティションを機会として,広告ビデオコンテンツの構造化分析能力を向上させるマルチモーダルシステムを開発した。
私たちのフレームワークでは、ビデオ構造化分析問題を、シーンセグメンテーションとマルチモーダルタグ付けという2つのタスクに分割する。
シーンセグメンテーションでは、時間モデルのための時間畳み込みモジュールを構築し、隣り合うフレームが同じシーンに属するかどうかを予測します。
マルチモーダルタグ付けでは、NeXt-SoftDBoFでフレームレベルの特徴を集約することで、クリップレベルの視覚的特徴を初めて計算する。
視覚的特徴は、OCR(Optical Character Recognition)とASR(Audio Speech Recognition)出力から有用な情報を抽出するために、グローバルローカルアテンション機構を用いて導出されるテキスト特徴とさらに補完される。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
関連論文リスト
- MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Semi-supervised and Deep learning Frameworks for Video Classification
and Key-frame Identification [1.2335698325757494]
本稿では,シーンのシーンを自動的に分類する半教師付きアプローチと,シーン理解タスクのためのフィルタフレームを提案する。
提案するフレームワークは、知覚駆動システムの自動トレーニングのために、追加のビデオデータストリームに拡張することができる。
論文 参考訳(メタデータ) (2022-03-25T05:45:18Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Multi-modal Representation Learning for Video Advertisement Content
Structuring [10.45050088240847]
ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。
ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。
ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
論文 参考訳(メタデータ) (2021-09-04T09:08:29Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。