論文の概要: Towards generalizing deep-audio fake detection networks
- arxiv url: http://arxiv.org/abs/2305.13033v3
- Date: Tue, 9 Apr 2024 16:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:36:08.091787
- Title: Towards generalizing deep-audio fake detection networks
- Title(参考訳): ディープ・オーディオ・フェイク検出ネットワークの一般化に向けて
- Authors: Konstantin Gasenzer, Moritz Wolter,
- Abstract要約: 生成ニューラルネットワークは、高品質な合成音声を大規模に作成することができる。
本研究では,現在の音声発生器の周波数領域指紋について検討する。
我々は一般化する優れた軽量検出器を訓練する。
- 参考スコア(独自算出の注目度): 1.0128808054306186
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Today's generative neural networks allow the creation of high-quality synthetic speech at scale. While we welcome the creative use of this new technology, we must also recognize the risks. As synthetic speech is abused for monetary and identity theft, we require a broad set of deepfake identification tools. Furthermore, previous work reported a limited ability of deep classifiers to generalize to unseen audio generators. We study the frequency domain fingerprints of current audio generators. Building on top of the discovered frequency footprints, we train excellent lightweight detectors that generalize. We report improved results on the WaveFake dataset and an extended version. To account for the rapid progress in the field, we extend the WaveFake dataset by additionally considering samples drawn from the novel Avocodo and BigVGAN networks. For illustration purposes, the supplementary material contains audio samples of generator artifacts.
- Abstract(参考訳): 今日の生成ニューラルネットワークは、高品質な合成音声を大規模に作成することを可能にする。
この新しいテクノロジーの創造的な利用を歓迎する一方で、リスクも認識する必要があります。
合成音声は金銭的およびアイデンティティの盗難で悪用されるため、幅広いディープフェイク識別ツールが必要である。
さらに、従来の研究は、未確認音声生成装置に一般化する深層分類器の能力に制限があったことを報告した。
本研究では,現在の音声発生器の周波数領域指紋について検討する。
検出された周波数フットプリントの上に構築され、一般化する優れた軽量検出器を訓練する。
我々は、WaveFakeデータセットと拡張バージョンに関する改善された結果について報告する。
本研究では,新たなAvocodoおよびBigVGANネットワークから抽出したサンプルを考慮し,WaveFakeデータセットを拡張した。
図示目的のために、補足材料は、ジェネレータアーティファクトのオーディオサンプルを含む。
関連論文リスト
- Targeted Augmented Data for Audio Deepfake Detection [11.671275975119089]
そこで本研究では,モデルの決定境界をターゲットとした音声疑似フェイク生成手法を提案する。
敵の攻撃に触発されて、元の実際のデータを摂動させ、不明瞭な予測確率で擬似フェイクを合成する。
論文 参考訳(メタデータ) (2024-07-10T12:31:53Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Rethinking the Up-Sampling Operations in CNN-based Generative Network
for Generalizable Deepfake Detection [86.97062579515833]
我々は、アップサンプリング操作から生じる一般化された構造的アーティファクトをキャプチャし、特徴付ける手段として、NPR(Neighboring Pixel Relationships)の概念を紹介した。
tft28の異なる生成モデルによって生成されたサンプルを含む、オープンワールドデータセット上で包括的な分析を行う。
この分析は、新しい最先端のパフォーマンスを確立し、既存の手法よりも優れたtft11.6%の向上を示している。
論文 参考訳(メタデータ) (2023-12-16T14:27:06Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Audio Deepfake Attribution: An Initial Dataset and Investigation [41.62487394875349]
我々は、Audio Deepfake Attribution (ADA)と呼ばれるオーディオ生成ツールの属性に対する最初のディープフェイクオーディオデータセットを設計する。
オープンセットオーディオディープフェイク属性(OSADA)のためのクラス・マルチセンター学習(CRML)手法を提案する。
実験の結果,CRML法は実世界のシナリオにおけるオープンセットリスクに効果的に対処できることが示された。
論文 参考訳(メタデータ) (2022-08-21T05:15:40Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - WaveFake: A Data Set to Facilitate Audio Deepfake Detection [3.8073142980733]
本稿では,音声信号の解析に用いる信号処理技術について紹介する。
次に、2つの言語にまたがる5つの異なるネットワークアーキテクチャから9つのサンプルデータセットを収集した。
第3に,信号処理コミュニティから採用されている2つのベースラインモデルを実践者に提供し,さらなる研究を促進する。
論文 参考訳(メタデータ) (2021-11-04T12:26:34Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。