論文の概要: 3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social
Media Short Videos
- arxiv url: http://arxiv.org/abs/2203.14456v1
- Date: Mon, 28 Mar 2022 02:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 08:30:28.361869
- Title: 3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social
Media Short Videos
- Title(参考訳): 3MASSIV:ソーシャルメディアショートビデオのマルチリンガル、マルチモーダル、マルチアスペクトデータセット
- Authors: Vikram Gupta, Trisha Mittal, Puneet Mathur, Vaibhav Mishra, Mayank
Maheshwari, Aniket Bera, Debdoot Mukherjee, Dinesh Manocha
- Abstract要約: ソーシャルメディアプラットフォームであるMojから抽出した多言語・多言語・多言語・多言語・多言語・多言語・専門的な短いビデオのデータセットである3MASSIVを提示する。
3MASSIVは、11言語で50Kのショートビデオ(平均20秒)と100Kの未ラベルビデオで構成されている。
本稿では,3MASSIVにおけるソーシャルメディアの内容がどのように動的かつ時間的であり,意味理解タスクや言語間分析に利用することができるかを示す。
- 参考スコア(独自算出の注目度): 72.69052180249598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present 3MASSIV, a multilingual, multimodal and multi-aspect,
expertly-annotated dataset of diverse short videos extracted from short-video
social media platform - Moj. 3MASSIV comprises of 50k short videos (20 seconds
average duration) and 100K unlabeled videos in 11 different languages and
captures popular short video trends like pranks, fails, romance, comedy
expressed via unique audio-visual formats like self-shot videos, reaction
videos, lip-synching, self-sung songs, etc. 3MASSIV presents an opportunity for
multimodal and multilingual semantic understanding on these unique videos by
annotating them for concepts, affective states, media types, and audio
language. We present a thorough analysis of 3MASSIV and highlight the variety
and unique aspects of our dataset compared to other contemporary popular
datasets with strong baselines. We also show how the social media content in
3MASSIV is dynamic and temporal in nature, which can be used for semantic
understanding tasks and cross-lingual analysis.
- Abstract(参考訳): 本研究では,多言語・多言語・多言語・多言語・多言語対応の短文ビデオデータセットである3massivを提案する。
3MASSIV comprises of 50k short videos (20 seconds average duration) and 100K unlabeled videos in 11 different languages and captures popular short video trends like pranks, fails, romance, comedy expressed via unique audio-visual formats like self-shot videos, reaction videos, lip-synching, self-sung songs, etc. 3MASSIV presents an opportunity for multimodal and multilingual semantic understanding on these unique videos by annotating them for concepts, affective states, media types, and audio language.
我々は、3massivの詳細な分析を行い、強いベースラインを持つ他の現代のポピュラーデータセットと比較して、データセットの多様性とユニークな側面を強調する。
また,3MASSIVにおけるソーシャルメディアの内容が自然界において動的かつ時間的であり,意味理解タスクや言語間分析に利用できることを示す。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset [26.339836754484082]
マルチモーダル・マルチジャンル・多目的音声視覚学術講義データセット(M$3$AV)を提案する。
M$3$AVには、コンピュータ科学、数学、医学、生物学に関する5つの情報源から367時間分のビデオがある。
スライドテキストと音声単語の高品質な人間のアノテーションにより、データセットは複数の音声視覚認識および理解タスクに使用することができる。
論文 参考訳(メタデータ) (2024-03-21T06:43:59Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - MultiVENT: Multilingual Videos of Events with Aligned Natural Text [29.266266741468055]
MultiVENTは、5つのターゲット言語にまたがるテキストドキュメントに基づくマルチリンガルなイベント中心のビデオのデータセットである。
オンラインニュースビデオの状況と、それらをどのように活用して、堅牢で事実的に正確なモデルを構築するかを分析する。
論文 参考訳(メタデータ) (2023-07-06T17:29:34Z) - A Multimodal Sentiment Dataset for Video Recommendation [21.44500591776281]
バイドゥビデオセンティメントデータセット(DuVideoSenti)というマルチモーダル感情分析データセットを提案する。
DuVideoSentiはBaiduに表示される5,630本のビデオで構成されている。
各ビデオには感傷的なスタイルのラベルが手動でアノテートされ、ビデオの実際の感覚が記述される。
論文 参考訳(メタデータ) (2021-09-17T03:10:42Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。