論文の概要: M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset
- arxiv url: http://arxiv.org/abs/2403.14168v2
- Date: Sun, 2 Jun 2024 02:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 15:47:26.984228
- Title: M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset
- Title(参考訳): M$^3$AV:マルチモーダル・マルチジェネラル・多目的オーディオ・ビジュアル・アカデミック・レクチャー・データセット
- Authors: Zhe Chen, Heyang Liu, Wenyi Yu, Guangzhi Sun, Hongcheng Liu, Ji Wu, Chao Zhang, Yu Wang, Yanfeng Wang,
- Abstract要約: マルチモーダル・マルチジャンル・多目的音声視覚学術講義データセット(M$3$AV)を提案する。
M$3$AVには、コンピュータ科学、数学、医学、生物学に関する5つの情報源から367時間分のビデオがある。
スライドテキストと音声単語の高品質な人間のアノテーションにより、データセットは複数の音声視覚認識および理解タスクに使用することができる。
- 参考スコア(独自算出の注目度): 26.339836754484082
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Publishing open-source academic video recordings is an emergent and prevalent approach to sharing knowledge online. Such videos carry rich multimodal information including speech, the facial and body movements of the speakers, as well as the texts and pictures in the slides and possibly even the papers. Although multiple academic video datasets have been constructed and released, few of them support both multimodal content recognition and understanding tasks, which is partially due to the lack of high-quality human annotations. In this paper, we propose a novel multimodal, multigenre, and multipurpose audio-visual academic lecture dataset (M$^3$AV), which has almost 367 hours of videos from five sources covering computer science, mathematics, and medical and biology topics. With high-quality human annotations of the slide text and spoken words, in particular high-valued name entities, the dataset can be used for multiple audio-visual recognition and understanding tasks. Evaluations performed on contextual speech recognition, speech synthesis, and slide and script generation tasks demonstrate that the diversity of M$^3$AV makes it a challenging dataset.
- Abstract(参考訳): オープンソースのアカデミックビデオの公開は、オンラインで知識を共有するための緊急かつ一般的なアプローチである。
このようなビデオは、音声、話者の顔と身体の動き、スライドのテキストや写真、そしておそらく論文までを含む豊富なマルチモーダル情報を持っている。
複数の学術ビデオデータセットが作成・リリースされているが、高品質な人間のアノテーションが欠如しているために、マルチモーダルなコンテンツ認識と理解タスクの両方をサポートするものはほとんどない。
本稿では,コンピュータ科学,数学,医学,生物学に関する5つの資料から約367時間の映像を収録した,多目的多目的視覚学術講義データセット(M$^3$AV)を提案する。
スライドテキストの高品質な人文アノテーションと音声単語、特に高価値な名前エンティティにより、データセットは複数の音声視覚認識および理解タスクに使用することができる。
文脈音声認識、音声合成、スライドおよびスクリプト生成タスクで行った評価は、M$^3$AVの多様性が挑戦的なデータセットであることを示している。
関連論文リスト
- Language as the Medium: Multimodal Video Classification through text
only [3.744589644319257]
マルチモーダル映像情報をキャプチャする詳細なテキスト記述を生成するためのモデルに依存しない新しい手法を提案する。
本手法は, GPT-3.5 や Llama2 といった大規模言語モデルによって学習された広範な知識を活用する。
UCF-101 や Kinetics などの一般的な行動認識ベンチマークによる評価は,これらの文脈に富んだ記述をビデオ理解タスクでうまく利用できることを示す。
論文 参考訳(メタデータ) (2023-09-19T17:32:21Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - 3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social
Media Short Videos [72.69052180249598]
ソーシャルメディアプラットフォームであるMojから抽出した多言語・多言語・多言語・多言語・多言語・多言語・専門的な短いビデオのデータセットである3MASSIVを提示する。
3MASSIVは、11言語で50Kのショートビデオ(平均20秒)と100Kの未ラベルビデオで構成されている。
本稿では,3MASSIVにおけるソーシャルメディアの内容がどのように動的かつ時間的であり,意味理解タスクや言語間分析に利用することができるかを示す。
論文 参考訳(メタデータ) (2022-03-28T02:47:01Z) - Classification of Important Segments in Educational Videos using
Multimodal Features [10.175871202841346]
本稿では,最先端の音声・視覚・テキスト機能を利用したマルチモーダルニューラルアーキテクチャを提案する。
本実験では,視覚的・時間的情報の影響と,重大予測に対するマルチモーダル特徴の組み合わせについて検討した。
論文 参考訳(メタデータ) (2020-10-26T14:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。