Fugu-MT 論文翻訳(概要): M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset

論文の概要: M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset

arxiv url: http://arxiv.org/abs/2403.14168v1
Date: Thu, 21 Mar 2024 06:43:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 15:17:21.774743
Title: M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset
Title（参考訳）: M$^3$AV:マルチモーダル・マルチジェネラル・多目的オーディオ・ビジュアル・アカデミック・レクチャー・データセット
Authors: Zhe Chen, Heyang Liu, Wenyi Yu, Guangzhi Sun, Hongcheng Liu, Ji Wu, Chao Zhang, Yu Wang, Yanfeng Wang,
Abstract要約: マルチモーダル・マルチジャンル・多目的音声視覚学術講義データセット(M$3$AV)を提案する。 M$3$AVには、コンピュータ科学、数学、医学、生物学に関する5つの情報源から367時間分のビデオがある。話し言葉や書き言葉の高品質な人間のアノテーションによって、データセットは複数の音声視覚認識および理解タスクに使用できる。
参考スコア（独自算出の注目度）: 26.339836754484082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Publishing open-source academic video recordings is an emergent and prevalent approach to sharing knowledge online. Such videos carry rich multimodal information including speech, the facial and body movements of the speakers, as well as the texts and pictures in the slides and possibly even the papers. Although multiple academic video datasets have been constructed and released, few of them support both multimodal content recognition and understanding tasks, which is partially due to the lack of high-quality human annotations. In this paper, we propose a novel multimodal, multigenre, and multipurpose audio-visual academic lecture dataset (M$^3$AV), which has almost 367 hours of videos from five sources covering computer science, mathematics, and medical and biology topics. With high-quality human annotations of the spoken and written words, in particular high-valued name entities, the dataset can be used for multiple audio-visual recognition and understanding tasks. Evaluations performed on contextual speech recognition, speech synthesis, and slide and script generation tasks demonstrate that the diversity of M$^3$AV makes it a challenging dataset.
Abstract（参考訳）: オープンソースのアカデミックビデオの公開は、オンラインで知識を共有するための緊急かつ一般的なアプローチである。このようなビデオは、音声、話者の顔と身体の動き、スライドのテキストや写真、そしておそらく論文までを含む豊富なマルチモーダル情報を持っている。複数の学術ビデオデータセットが作成・リリースされているが、高品質な人間のアノテーションが欠如しているために、マルチモーダルなコンテンツ認識と理解タスクの両方をサポートするものはほとんどない。本稿では,コンピュータ科学,数学,医学,生物学に関する5つの資料から約367時間の映像を収録した,多目的多目的視覚学術講義データセット(M$^3$AV)を提案する。話し言葉や書き言葉の高品質な人間のアノテーション、特に高価値な名前のエンティティによって、データセットは複数の音声視覚認識および理解タスクに使用することができる。文脈音声認識、音声合成、スライドおよびスクリプト生成タスクで行った評価は、M$^3$AVの多様性が挑戦的なデータセットであることを示している。

関連論文リスト

TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation [76.48551690189406]
本研究では,マルチショット音声ビデオ生成を支援する大規模データセットであるTalkCutsを提案する。 TalkCutsは、クローズアップ、ハーフボディ、フルボディビューを含む様々なカメラショットを備えた、500時間以上の高品質な人間の音声ビデオクリップを提供する。このデータセットには、詳細なテキスト記述、2Dキーポイント、3D SMPL-Xモーションアノテーションが含まれ、10k以上のアイデンティティをカバーし、マルチモーダル学習と評価を可能にする。
論文参考訳（メタデータ） (2025-10-08T17:16:09Z)
Paper2Video: Automatic Video Generation from Scientific Papers [62.634562246594555]
Paper2Videoは、著者が作成したプレゼンテーションビデオ、スライド、スピーカーメタデータと組み合わせた101の研究論文の最初のベンチマークである。そこで我々は,学術プレゼンテーションビデオ生成のための最初のマルチエージェントフレームワークであるPaperTalkerを提案する。
論文参考訳（メタデータ） (2025-10-06T17:58:02Z)
Multi-human Interactive Talking Dataset [20.920129008402718]
マルチヒューマン音声ビデオ生成に特化して設計された大規模データセットであるMITを紹介する。得られたデータセットは、12時間の高解像度映像で構成され、それぞれ2〜4人の話者を特徴とする。マルチスピーカーシナリオにおける自然な会話のダイナミクスを捉え、インタラクティブな視覚行動を研究するための豊富なリソースを提供する。
論文参考訳（メタデータ） (2025-08-05T03:54:18Z)
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining [86.76706820098867]
本稿では,VLM事前学習のための基礎知識を充実させた高品質な教科書コーパスについて紹介する。 2.5年以上の授業ビデオを集め、クラス時間は22,000時間である。ビデオ中心の教科書は、それと比較すると、より一貫性のあるコンテキスト、より豊かな知識、より優れた画像テキストアライメントを提供する。
論文参考訳（メタデータ） (2025-01-01T21:29:37Z)
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文参考訳（メタデータ） (2024-07-30T16:43:24Z)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (2023-07-13T17:58:32Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。 VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文参考訳（メタデータ） (2023-04-17T15:08:15Z)
Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文参考訳（メタデータ） (2022-08-17T05:30:18Z)
3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social Media Short Videos [72.69052180249598]
ソーシャルメディアプラットフォームであるMojから抽出した多言語・多言語・多言語・多言語・多言語・多言語・専門的な短いビデオのデータセットである3MASSIVを提示する。 3MASSIVは、11言語で50Kのショートビデオ(平均20秒)と100Kの未ラベルビデオで構成されている。本稿では,3MASSIVにおけるソーシャルメディアの内容がどのように動的かつ時間的であり,意味理解タスクや言語間分析に利用することができるかを示す。
論文参考訳（メタデータ） (2022-03-28T02:47:01Z)
Classification of Important Segments in Educational Videos using Multimodal Features [10.175871202841346]
本稿では,最先端の音声・視覚・テキスト機能を利用したマルチモーダルニューラルアーキテクチャを提案する。本実験では,視覚的・時間的情報の影響と,重大予測に対するマルチモーダル特徴の組み合わせについて検討した。
論文参考訳（メタデータ） (2020-10-26T14:40:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。