論文の概要: MVAD : A Comprehensive Multimodal Video-Audio Dataset for AIGC Detection
- arxiv url: http://arxiv.org/abs/2512.00336v1
- Date: Sat, 29 Nov 2025 05:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.178151
- Title: MVAD : A Comprehensive Multimodal Video-Audio Dataset for AIGC Detection
- Title(参考訳): MVAD : AIGC検出のための総合的マルチモーダルビデオオーディオデータセット
- Authors: Mengxue Hu, Yunfeng Diao, Changtao Miao, Jianshu Li, Zhe Li, Joey Tianyi Zhou,
- Abstract要約: 本稿では,AIが生成するマルチモーダルビデオオーディオコンテンツを検出するために設計された,初めての包括的データセットを紹介する。
本データセットは,(1)実写映像フォージェリパターンに基づくサンプル生成による真のマルチモーダル,(2)多種多様生成モデルによる高い知覚品質,(3)実写映像とアニメ映像の視覚スタイルにまたがる包括的多様性の3つの特徴を示す。
- 参考スコア(独自算出の注目度): 47.072548525112865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of AI-generated multimodal video-audio content has raised significant concerns regarding information security and content authenticity. Existing synthetic video datasets predominantly focus on the visual modality alone, while the few incorporating audio are largely confined to facial deepfakes--a limitation that fails to address the expanding landscape of general multimodal AI-generated content and substantially impedes the development of trustworthy detection systems. To bridge this critical gap, we introduce the Multimodal Video-Audio Dataset (MVAD), the first comprehensive dataset specifically designed for detecting AI-generated multimodal video-audio content. Our dataset exhibits three key characteristics: (1) genuine multimodality with samples generated according to three realistic video-audio forgery patterns; (2) high perceptual quality achieved through diverse state-of-the-art generative models; and (3) comprehensive diversity spanning realistic and anime visual styles, four content categories (humans, animals, objects, and scenes), and four video-audio multimodal data types. Our dataset will be available at https://github.com/HuMengXue0104/MVAD.
- Abstract(参考訳): AIが生成するマルチモーダルビデオオーディオコンテンツの急速な進歩は、情報セキュリティとコンテンツの信頼性に関する重要な懸念を引き起こしている。
既存の合成ビデオデータセットは、視覚的モダリティのみに重点を置いているのに対して、音声を組み込んだ数少ないものは、顔のディープフェイクに限られている。
この重要なギャップを埋めるために、我々は、AIが生成するマルチモーダルビデオオーディオコンテンツを検出するために特別に設計された最初の包括的なデータセットであるMultimodal Video-Audio Dataset (MVAD)を導入する。
本データセットは,(1)実写映像フォージェリパターンに基づくサンプル生成による真のマルチモーダル,(2)多種多様な映像生成モデルによる高い知覚品質,(3)実写映像とアニメの視覚スタイルにまたがる包括的多様性,4つのコンテンツカテゴリ(人間,動物,オブジェクト,シーン),および4つのビデオ・オーディオ・マルチモーダルデータタイプを示す。
私たちのデータセットはhttps://github.com/HuMengXue0104/MVADで公開されます。
関連論文リスト
- CFSum: A Transformer-Based Multi-Modal Video Summarization Framework With Coarse-Fine Fusion [22.58710742780161]
CFSumは、粗い微細融合を伴うトランスフォーマーベースのマルチモーダルビデオ要約フレームワークである。
CFSumはビデオ、テキスト、オーディオのモーダル機能を入力として利用し、2段階のトランスフォーマーベースの機能融合フレームワークを組み込んでいる。
論文 参考訳(メタデータ) (2025-03-01T06:13:13Z) - MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation [14.28357169715152]
本稿では,新しい多モード潜在拡散モデル(MM-LDM)を提案する。
まず、音声とビデオデータの表現を、それらを1つか2つの画像に変換することによって統一する。
次に,階層型マルチモーダルオートエンコーダを導入し,各モダリティに対する低レベルの知覚潜在空間と共有高レベルの意味的特徴空間を構築する。
論文 参考訳(メタデータ) (2024-10-02T14:32:24Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding [25.4933695784155]
ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。
実世界のアプリケーションとのギャップを埋めるために,ビデオデータセット用の大規模主観応答指標を導入する。
我々は,異なるユーザ間での映像コンテンツの認知的理解度を分析し,評価するためのタスクとプロトコルを開発した。
論文 参考訳(メタデータ) (2024-07-11T03:00:26Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。