論文の概要: Tencent AVS: A Holistic Ads Video Dataset for Multi-modal Scene
Segmentation
- arxiv url: http://arxiv.org/abs/2212.04700v1
- Date: Fri, 9 Dec 2022 07:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:11:49.294035
- Title: Tencent AVS: A Holistic Ads Video Dataset for Multi-modal Scene
Segmentation
- Title(参考訳): Tencent AVS:マルチモーダルシーンセグメンテーションのためのホロスティック広告ビデオデータセット
- Authors: Jie Jiang, Zhimin Li, Jiangfeng Xiong, Rongwei Quan, Qinglin Lu, Wei
Liu
- Abstract要約: Tencent Ads Video'(TAVS)データセットを広告ドメイン内に構築し、マルチモーダルビデオ分析を新たなレベルにエスカレートする。
TAVSは3つの独立した視点からの動画をプレゼンテーション形式、場所、スタイルとして記述し、ビデオ、オーディオ、テキストなどの豊富なマルチモーダル情報を含んでいる。
12,000のビデオ、82のクラス、33,900のセグメント、121,100のショット、168,500のラベルがある。
- 参考スコア(独自算出の注目度): 12.104032818304745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal video segmentation and classification have been advanced greatly by
public benchmarks in recent years. However, such research still mainly focuses
on human actions, failing to describe videos in a holistic view. In addition,
previous research tends to pay much attention to visual information yet ignores
the multi-modal nature of videos. To fill this gap, we construct the Tencent
`Ads Video Segmentation'~(TAVS) dataset in the ads domain to escalate
multi-modal video analysis to a new level. TAVS describes videos from three
independent perspectives as `presentation form', `place', and `style', and
contains rich multi-modal information such as video, audio, and text. TAVS is
organized hierarchically in semantic aspects for comprehensive temporal video
segmentation with three levels of categories for multi-label classification,
e.g., `place' - `working place' - `office'. Therefore, TAVS is distinguished
from previous temporal segmentation datasets due to its multi-modal
information, holistic view of categories, and hierarchical granularities. It
includes 12,000 videos, 82 classes, 33,900 segments, 121,100 shots, and 168,500
labels. Accompanied with TAVS, we also present a strong multi-modal video
segmentation baseline coupled with multi-label class prediction. Extensive
experiments are conducted to evaluate our proposed method as well as existing
representative methods to reveal key challenges of our dataset TAVS.
- Abstract(参考訳): 近年,時間的ビデオのセグメンテーションと分類が公開ベンチマークによって大きく進歩している。
しかし、こうした研究は主に人間の行動に焦点を当てており、全体論的な視点でビデオを記述することは出来なかった。
さらに、以前の研究は視覚情報に多くの注意を払う傾向があるが、ビデオのマルチモーダルな性質を無視している。
このギャップを埋めるために、Tencent `Ads Video Segmentation'~(TAVS)データセットを広告ドメイン内に構築し、マルチモーダルビデオ分析を新しいレベルにエスカレートする。
TAVSは、3つの独立した視点からの動画を「表現形式」、「場所」、そして「スタイル」として記述し、ビデオ、オーディオ、テキストなどの豊富なマルチモーダル情報を含んでいる。
TAVSは、総合的な時間的ビデオセグメンテーションのセグメンテーションのセグメンテーションにおいて階層的に構成され、複数ラベルの分類には3つのレベルがある(例: 'place' - `working place' - `office')。
したがって、TAVSは、そのマルチモーダル情報、カテゴリの全体像、階層的な粒度により、従来の時間分割データセットと区別される。
12,000のビデオ、82のクラス、33,900のセグメント、121,100のショット、168,500のラベルがある。
TAVSと合わせて,マルチラベルクラス予測と組み合わせた,強力なマルチモーダルビデオセグメンテーションベースラインも提示する。
提案手法と既存の代表手法を総合的に評価し,データセットTAVSの重要な課題を明らかにする。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Towards Open-Vocabulary Video Instance Segmentation [61.469232166803465]
Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。
本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。
Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
論文 参考訳(メタデータ) (2023-04-04T11:25:23Z) - Unsupervised Audio-Visual Lecture Segmentation [31.29084124332193]
AVLecturesは,STEMを対象とする2,350以上の講義を対象とする86のコースからなるデータセットである。
第2のコントリビューションは,ビデオ講義セグメンテーションの導入である。
我々はこれらの表現を用いて時間的に一貫した1-アネレスト隣のアルゴリズムTW-FINCHを用いてセグメントを生成する。
論文 参考訳(メタデータ) (2022-10-29T16:26:34Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。