論文の概要: Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform
- arxiv url: http://arxiv.org/abs/2508.10559v1
- Date: Thu, 14 Aug 2025 11:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.295063
- Title: Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform
- Title(参考訳): Fake Speech Wild: ソーシャルメディアプラットフォーム上でのディープフェイク音声の検出
- Authors: Yuankun Xie, Ruibo Fu, Xiaopeng Wang, Zhiyong Wang, Ya Li, Zhengqi Wen, Haonnan Cheng, Long Ye,
- Abstract要約: 本研究では,4つのメディアプラットフォームから254時間のリアルタイム・ディープフェイク音声を含むFake Speech Wild (FSW)データセットを提案する。
CMとして、実際のシナリオで現在のCMを評価するために、パブリックデータセットと高度な自己教師付き学習(SSL)ベースのCMを使用したベンチマークを確立する。
我々は,実世界のディープフェイク音声検出性能を著しく向上させ,各評価セットの平均等速(EER)を3.54%向上させた。
- 参考スコア(独自算出の注目度): 27.999219410094735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of speech generation technology has led to the widespread proliferation of deepfake speech across social media platforms. While deepfake audio countermeasures (CMs) achieve promising results on public datasets, their performance degrades significantly in cross-domain scenarios. To advance CMs for real-world deepfake detection, we first propose the Fake Speech Wild (FSW) dataset, which includes 254 hours of real and deepfake audio from four different media platforms, focusing on social media. As CMs, we establish a benchmark using public datasets and advanced selfsupervised learning (SSL)-based CMs to evaluate current CMs in real-world scenarios. We also assess the effectiveness of data augmentation strategies in enhancing CM robustness for detecting deepfake speech on social media. Finally, by augmenting public datasets and incorporating the FSW training set, we significantly advanced real-world deepfake audio detection performance, achieving an average equal error rate (EER) of 3.54% across all evaluation sets.
- Abstract(参考訳): 音声生成技術の急速な進歩は、ソーシャルメディアプラットフォームにおけるディープフェイク音声の普及に繋がった。
ディープフェイク音声対策(CM)は、パブリックデータセット上で有望な結果を達成する一方で、そのパフォーマンスはクロスドメインシナリオにおいて著しく低下する。
実世界のディープフェイク検出のために,まず,4つのメディアプラットフォームから254時間のリアルタイムおよびディープフェイク音声を含むFake Speech Wild (FSW)データセットを提案する。
CMとして、実際のシナリオで現在のCMを評価するために、パブリックデータセットと高度な自己教師付き学習(SSL)ベースのCMを使用したベンチマークを確立する。
また,ソーシャルメディア上でのディープフェイク音声の検出におけるCMロバスト性向上のためのデータ強化戦略の有効性についても検討した。
最後に、公開データセットを拡大し、FSWトレーニングセットを組み込むことで、実世界のディープフェイク音声検出性能を大幅に向上させ、すべての評価セットの平均等速(EER)を3.54%達成した。
関連論文リスト
- SocialDF: Benchmark Dataset and Detection Model for Mitigating Harmful Deepfake Content on Social Media Platforms [0.13194391758295113]
ソーシャルメディアプラットフォーム上での現実的なディープフェイク課題を反映した、キュレートされたデータセットであるSocialDFを紹介した。
このデータセットは、さまざまなオンラインエコシステムから得られた高忠実度ディープフェイクを含んでいる。
本稿では,音声認識,自動音声書き起こし,マルチエージェントLPMパイプラインを組み合わせた新しい多要素検出手法を提案する。
論文 参考訳(メタデータ) (2025-06-05T19:39:28Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。
音声の機械知覚におけるモダリティ間差異を利用する。
時間的にディープフェイクの偽造を特定できる。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - Leveraging Deep Learning Approaches for Deepfake Detection: A Review [0.0]
ディープフェイク(Deepfakes)は、AIによって生成されたメディアであり、実際のメディアから切り離すことが難しい。
本稿では,コスト効率のよいモデルを実現するために,様々な手法を検討することを目的とする。
論文 参考訳(メタデータ) (2023-04-04T16:04:42Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Audio Deepfake Attribution: An Initial Dataset and Investigation [41.62487394875349]
我々は、Audio Deepfake Attribution (ADA)と呼ばれるオーディオ生成ツールの属性に対する最初のディープフェイクオーディオデータセットを設計する。
オープンセットオーディオディープフェイク属性(OSADA)のためのクラス・マルチセンター学習(CRML)手法を提案する。
実験の結果,CRML法は実世界のシナリオにおけるオープンセットリスクに効果的に対処できることが示された。
論文 参考訳(メタデータ) (2022-08-21T05:15:40Z) - Half-Truth: A Partially Fake Audio Detection Dataset [60.08010668752466]
本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセットの部分的に偽の音声は、発話中の数単語だけを変更する。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
論文 参考訳(メタデータ) (2021-04-08T08:57:13Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。