論文の概要: MAVOS-DD: Multilingual Audio-Video Open-Set Deepfake Detection Benchmark
- arxiv url: http://arxiv.org/abs/2505.11109v1
- Date: Fri, 16 May 2025 10:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.764783
- Title: MAVOS-DD: Multilingual Audio-Video Open-Set Deepfake Detection Benchmark
- Title(参考訳): MAVOS-DD:マルチリンガルオーディオビデオのオープンセットディープフェイク検出ベンチマーク
- Authors: Florinel-Alin Croitoru, Vlad Hondru, Marius Popescu, Radu Tudor Ionescu, Fahad Shahbaz Khan, Mubarak Shah,
- Abstract要約: マルチリンガル・オーディオ・ビデオ・ディープフェイク検出のための大規模オープンセット・ベンチマークを初めて提示する。
私たちのデータセットは8つの言語で250時間以上の実ビデオと偽ビデオで構成されています。
各言語について、偽ビデオは7つの異なるディープフェイク生成モデルで生成される。
- 参考スコア(独自算出の注目度): 108.46287432944392
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present the first large-scale open-set benchmark for multilingual audio-video deepfake detection. Our dataset comprises over 250 hours of real and fake videos across eight languages, with 60% of data being generated. For each language, the fake videos are generated with seven distinct deepfake generation models, selected based on the quality of the generated content. We organize the training, validation and test splits such that only a subset of the chosen generative models and languages are available during training, thus creating several challenging open-set evaluation setups. We perform experiments with various pre-trained and fine-tuned deepfake detectors proposed in recent literature. Our results show that state-of-the-art detectors are not currently able to maintain their performance levels when tested in our open-set scenarios. We publicly release our data and code at: https://huggingface.co/datasets/unibuc-cs/MAVOS-DD.
- Abstract(参考訳): マルチリンガル・オーディオ・ビデオ・ディープフェイク検出のための大規模オープンセット・ベンチマークを初めて提示する。
私たちのデータセットは8つの言語で250時間以上の実ビデオと偽ビデオで構成されており、データの60%が生成される。
各言語について、偽ビデオは、7つの異なるディープフェイク生成モデルで生成され、生成されたコンテンツの品質に基づいて選択される。
トレーニング中に選択した生成モデルと言語のサブセットのみが利用可能となるように、トレーニング、検証、テストの分割を組織化し、いくつかの挑戦的なオープンセット評価設定を作成します。
近年の文献で提案されている各種の事前学習型および微調整型ディープフェイク検出器を用いて実験を行った。
この結果から,現在最先端の検出器は,我々のオープンセットシナリオでテストした場合,その性能レベルを維持できないことがわかった。
https://huggingface.co/datasets/unibuc-cs/MAVOS-DD。
関連論文リスト
- AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [21.90332221144928]
AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文 参考訳(メタデータ) (2023-11-26T14:17:51Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset [14.619865864254924]
Open Large-scale Korean Audio-Visual Speech (OLKAVS)データセットは、一般に公開されている音声視覚音声データセットの中で最大である。
データセットには、韓国語話者1,107人による1,150時間の音声書き起こしが含まれており、9つの異なる視点と様々なノイズ状況がある。
論文 参考訳(メタデータ) (2023-01-16T11:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。