論文の概要: Overview of Tencent Multi-modal Ads Video Understanding Challenge
- arxiv url: http://arxiv.org/abs/2109.07951v1
- Date: Thu, 16 Sep 2021 13:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 13:56:28.743089
- Title: Overview of Tencent Multi-modal Ads Video Understanding Challenge
- Title(参考訳): Tencent Multi-modal Ads Video Understanding Challengeの概要
- Authors: Zhenzhi Wang, Liyu Wu, Zhimin Li, Jiangfeng Xiong, Qinglin Lu
- Abstract要約: マルチモーダル広告ビデオ理解チャレンジ(Multi-modal Ads Video Understanding Challenge)は、広告ビデオを包括的に理解するための最初の大きな挑戦だ。
参加者には、各シーンのシーン境界とマルチラベルカテゴリの両方を正確に予測するように求めている。
広告の理解の基盤を前進させ、ビデオレコメンデーションのような多くの広告アプリケーションに大きな影響を与えるだろう。
- 参考スコア(独自算出の注目度): 1.6904374000330984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Ads Video Understanding Challenge is the first grand challenge
aiming to comprehensively understand ads videos. Our challenge includes two
tasks: video structuring in the temporal dimension and multi-modal video
classification. It asks the participants to accurately predict both the scene
boundaries and the multi-label categories of each scene based on a fine-grained
and ads-related category hierarchy. Therefore, our task has four distinguishing
features from previous ones: ads domain, multi-modal information, temporal
segmentation, and multi-label classification. It will advance the foundation of
ads video understanding and have a significant impact on many ads applications
like video recommendation. This paper presents an overview of our challenge,
including the background of ads videos, an elaborate description of task and
dataset, evaluation protocol, and our proposed baseline. By ablating the key
components of our baseline, we would like to reveal the main challenges of this
task and provide useful guidance for future research of this area. In this
paper, we give an extended version of our challenge overview. The dataset will
be publicly available at https://algo.qq.com/.
- Abstract(参考訳): マルチモーダル広告ビデオ理解チャレンジは、広告ビデオを包括的に理解するための最初の大きな挑戦だ。
課題は,時間次元の映像構造化とマルチモーダルビデオ分類の2つの課題である。
参加者は、細粒度および広告関連カテゴリ階層に基づいて、各シーンのシーン境界とマルチラベルカテゴリの両方を正確に予測するよう求める。
そこで本課題は,広告ドメイン,マルチモーダル情報,時間的セグメンテーション,マルチラベル分類の4つの特徴を持つ。
広告の理解の基盤を前進させ、ビデオレコメンデーションのような多くの広告アプリケーションに大きな影響を与えるだろう。
本稿では,広告ビデオの背景,タスクとデータセットの詳細な説明,評価プロトコル,提案するベースラインなど,本課題の概要について述べる。
ベースラインの重要なコンポーネントを補足することで、このタスクの主な課題を明らかにし、この分野の今後の研究に有用なガイダンスを提供したいと思っています。
本稿では,課題概要の拡張版について述べる。
データセットはhttps://algo.qq.com/.comで公開される。
関連論文リスト
- MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文 参考訳(メタデータ) (2022-12-22T03:47:14Z) - Tencent AVS: A Holistic Ads Video Dataset for Multi-modal Scene
Segmentation [12.104032818304745]
Tencent Ads Video'(TAVS)データセットを広告ドメイン内に構築し、マルチモーダルビデオ分析を新たなレベルにエスカレートする。
TAVSは3つの独立した視点からの動画をプレゼンテーション形式、場所、スタイルとして記述し、ビデオ、オーディオ、テキストなどの豊富なマルチモーダル情報を含んでいる。
12,000のビデオ、82のクラス、33,900のセグメント、121,100のショット、168,500のラベルがある。
論文 参考訳(メタデータ) (2022-12-09T07:26:20Z) - Multi-modal Segment Assemblage Network for Ad Video Editing with
Importance-Coherence Reward [34.06878258459702]
動画編集は、広告ビデオを短いビデオに自動的に編集し、一貫性のあるコンテンツと広告主が伝える重要な情報を保持することを目的としています。
既存の手法はビデオセグメンテーションの段階では良好に機能するが、セグメンテーションの段階では余分な煩雑なモデルに依存し、性能が劣る。
本稿では,効率よく一貫性のあるセグメントアセンブラタスクをエンド・ツー・エンドで実現可能なM-SANを提案する。
論文 参考訳(メタデータ) (2022-09-25T06:51:45Z) - Multi-modal Representation Learning for Video Advertisement Content
Structuring [10.45050088240847]
ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。
ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。
ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
論文 参考訳(メタデータ) (2021-09-04T09:08:29Z) - Video Ads Content Structuring by Combining Scene Confidence Prediction
and Tagging [10.609715843964263]
そこで本研究では,まずシーン境界を提供し,各シーンに対する信頼度スコアと,そのシーンに予測されるタグクラスを組み合わせた2段階の手法を提案する。
我々の組み合わせた手法は、挑戦的な“Tencent〜ビデオ”データセットの以前のベースラインを改善します。
論文 参考訳(メタデータ) (2021-08-20T15:13:20Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。