論文の概要: Towards generalizing deep-audio fake detection networks
- arxiv url: http://arxiv.org/abs/2305.13033v1
- Date: Mon, 22 May 2023 13:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:42:44.717534
- Title: Towards generalizing deep-audio fake detection networks
- Title(参考訳): ディープオーディオ偽検出ネットワークの一般化に向けて
- Authors: Konstantin Gasenzer (1) and Moritz Wolter (1) ((1) High Performance
Computing and Analytics Lab, Universit\"at Bonn, Germany)
- Abstract要約: 生成ニューラルネットワークは、高品質な合成音声を大規模に作成することができる。
我々は、目に見えないオーディオジェネレータに一般化する優れた軽量検出器を訓練する。
この分野の急速な進展を考慮し,新たなAvocodoおよびBigVGANネットワークから得られたサンプルについても考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Today's generative neural networks allow the creation of high-quality
synthetic speech at scale. While we welcome the creative use of this new
technology, we must also recognize the risks. As synthetic speech is abused for
both monetary and identity theft, we require a broad set of deep fake
identification tools. Furthermore, previous work reported a limited ability of
deep classifiers to generalize to unseen audio generators. By leveraging the
wavelet-packet and short-time Fourier transform, we train excellent lightweight
detectors that generalize. We report improved results on an extension of the
WaveFake dataset. To account for the rapid progress in the field, we
additionally consider samples drawn from the novel Avocodo and BigVGAN
networks.
- Abstract(参考訳): 今日の生成ニューラルネットワークは、高品質な合成音声を大規模に作成できる。
この新しい技術の創造的な利用を歓迎する一方で、リスクも認識しなければなりません。
合成音声は金銭的盗難と身元確認の両方で悪用されるため、幅広い偽造識別ツールが必要である。
さらに、以前の研究では、未知のオーディオジェネレータに一般化する深い分類器の能力が限られていると報告された。
ウェーブレットパケットと短時間フーリエ変換を利用して、一般化する優れた軽量検出器を訓練する。
本稿ではWaveFakeデータセットの拡張結果について報告する。
この分野の急速な進展を考慮し,新たなAvocodoおよびBigVGANネットワークから得られたサンプルについても考察する。
関連論文リスト
- Targeted Augmented Data for Audio Deepfake Detection [11.671275975119089]
そこで本研究では,モデルの決定境界をターゲットとした音声疑似フェイク生成手法を提案する。
敵の攻撃に触発されて、元の実際のデータを摂動させ、不明瞭な予測確率で擬似フェイクを合成する。
論文 参考訳(メタデータ) (2024-07-10T12:31:53Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Rethinking the Up-Sampling Operations in CNN-based Generative Network
for Generalizable Deepfake Detection [86.97062579515833]
我々は、アップサンプリング操作から生じる一般化された構造的アーティファクトをキャプチャし、特徴付ける手段として、NPR(Neighboring Pixel Relationships)の概念を紹介した。
tft28の異なる生成モデルによって生成されたサンプルを含む、オープンワールドデータセット上で包括的な分析を行う。
この分析は、新しい最先端のパフォーマンスを確立し、既存の手法よりも優れたtft11.6%の向上を示している。
論文 参考訳(メタデータ) (2023-12-16T14:27:06Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Audio Deepfake Attribution: An Initial Dataset and Investigation [41.62487394875349]
我々は、Audio Deepfake Attribution (ADA)と呼ばれるオーディオ生成ツールの属性に対する最初のディープフェイクオーディオデータセットを設計する。
オープンセットオーディオディープフェイク属性(OSADA)のためのクラス・マルチセンター学習(CRML)手法を提案する。
実験の結果,CRML法は実世界のシナリオにおけるオープンセットリスクに効果的に対処できることが示された。
論文 参考訳(メタデータ) (2022-08-21T05:15:40Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - WaveFake: A Data Set to Facilitate Audio Deepfake Detection [3.8073142980733]
本稿では,音声信号の解析に用いる信号処理技術について紹介する。
次に、2つの言語にまたがる5つの異なるネットワークアーキテクチャから9つのサンプルデータセットを収集した。
第3に,信号処理コミュニティから採用されている2つのベースラインモデルを実践者に提供し,さらなる研究を促進する。
論文 参考訳(メタデータ) (2021-11-04T12:26:34Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。