Fugu-MT 論文翻訳(概要): SafeEar: Content Privacy-Preserving Audio Deepfake Detection

論文の概要: SafeEar: Content Privacy-Preserving Audio Deepfake Detection

arxiv url: http://arxiv.org/abs/2409.09272v1
Date: Sat, 14 Sep 2024 02:45:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 21:38:57.136409
Title: SafeEar: Content Privacy-Preserving Audio Deepfake Detection
Title（参考訳）: SafeEar: コンテンツプライバシ保護によるオーディオディープフェイク検出
Authors: Xinfeng Li, Kai Li, Yifan Zheng, Chen Yan, Xiaoyu Ji, Wenyuan Xu,
Abstract要約: 音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。このようにして、セマンティックな内容が検出器に露出されることはない。
参考スコア（独自算出の注目度）: 17.859275594843965
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Text-to-Speech (TTS) and Voice Conversion (VC) models have exhibited remarkable performance in generating realistic and natural audio. However, their dark side, audio deepfake poses a significant threat to both society and individuals. Existing countermeasures largely focus on determining the genuineness of speech based on complete original audio recordings, which however often contain private content. This oversight may refrain deepfake detection from many applications, particularly in scenarios involving sensitive information like business secrets. In this paper, we propose SafeEar, a novel framework that aims to detect deepfake audios without relying on accessing the speech content within. Our key idea is to devise a neural audio codec into a novel decoupling model that well separates the semantic and acoustic information from audio samples, and only use the acoustic information (e.g., prosody and timbre) for deepfake detection. In this way, no semantic content will be exposed to the detector. To overcome the challenge of identifying diverse deepfake audio without semantic clues, we enhance our deepfake detector with real-world codec augmentation. Extensive experiments conducted on four benchmark datasets demonstrate SafeEar's effectiveness in detecting various deepfake techniques with an equal error rate (EER) down to 2.02%. Simultaneously, it shields five-language speech content from being deciphered by both machine and human auditory analysis, demonstrated by word error rates (WERs) all above 93.93% and our user study. Furthermore, our benchmark constructed for anti-deepfake and anti-content recovery evaluation helps provide a basis for future research in the realms of audio privacy preservation and deepfake detection.
Abstract（参考訳）: テキスト音声変換(TTS)モデルとVoice Conversion(VC)モデルは,現実的で自然な音声を生成する上で,優れた性能を示した。しかし、その暗黒面、オーディオディープフェイクは、社会と個人の両方に重大な脅威をもたらす。既存の対策は、しばしばプライベートコンテンツを含む完全なオリジナル音声記録に基づいて、音声の真正性を決定することに重点を置いている。この監視は、特にビジネスシークレットのような機密情報を含むシナリオにおいて、多くのアプリケーションからのディープフェイク検出を妨げます。本稿では,音声コンテンツにアクセスすることなくディープフェイク音声を検出するための新しいフレームワークであるSafeEarを提案する。私たちのキーとなるアイデアは、ニューラルオーディオコーデックを新しいデカップリングモデルに設計し、セマンティックおよび音響情報をオーディオサンプルから適切に分離し、ディープフェイク検出に音響情報(例えば、韻律、音色)のみを使用することです。このようにして、セマンティックな内容が検出器に露出されることはない。意味的な手がかりのない多様なディープフェイク音声を特定するという課題を克服するため,実世界のコーデック拡張によるディープフェイク検出を強化した。 4つのベンチマークデータセットで実施された大規模な実験は、SafeEarが同等のエラー率 (EER) で様々なディープフェイクテクニックを検出できることを示した。同時に、93.93%以上の単語誤り率(WER)とユーザスタディにより、機械と人間の聴覚分析の両方で5言語音声コンテンツが解読されるのを防ぐ。さらに, ディープフェイクとアンチコンテンツ回復評価のためのベンチマークを構築し, 音声のプライバシー保護とディープフェイク検出の領域における今後の研究の基盤を提供する。

関連論文リスト

Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文参考訳（メタデータ） (2023-11-29T14:18:04Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文参考訳（メタデータ） (2022-11-11T09:05:50Z)
Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文参考訳（メタデータ） (2022-10-31T11:03:03Z)
Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization [19.490174583625862]
LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
論文参考訳（メタデータ） (2022-04-13T08:02:11Z)
Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文参考訳（メタデータ） (2022-04-06T20:51:40Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Partially Fake Audio Detection by Self-attention-based Fake Span Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。 ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文参考訳（メタデータ） (2022-02-14T13:20:55Z)
Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文参考訳（メタデータ） (2021-09-07T11:00:20Z)
Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文参考訳（メタデータ） (2020-03-14T22:07:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。