論文の概要: Towards generalizing deep-audio fake detection networks
- arxiv url: http://arxiv.org/abs/2305.13033v1
- Date: Mon, 22 May 2023 13:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:42:44.717534
- Title: Towards generalizing deep-audio fake detection networks
- Title(参考訳): ディープオーディオ偽検出ネットワークの一般化に向けて
- Authors: Konstantin Gasenzer (1) and Moritz Wolter (1) ((1) High Performance
Computing and Analytics Lab, Universit\"at Bonn, Germany)
- Abstract要約: 生成ニューラルネットワークは、高品質な合成音声を大規模に作成することができる。
我々は、目に見えないオーディオジェネレータに一般化する優れた軽量検出器を訓練する。
この分野の急速な進展を考慮し,新たなAvocodoおよびBigVGANネットワークから得られたサンプルについても考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Today's generative neural networks allow the creation of high-quality
synthetic speech at scale. While we welcome the creative use of this new
technology, we must also recognize the risks. As synthetic speech is abused for
both monetary and identity theft, we require a broad set of deep fake
identification tools. Furthermore, previous work reported a limited ability of
deep classifiers to generalize to unseen audio generators. By leveraging the
wavelet-packet and short-time Fourier transform, we train excellent lightweight
detectors that generalize. We report improved results on an extension of the
WaveFake dataset. To account for the rapid progress in the field, we
additionally consider samples drawn from the novel Avocodo and BigVGAN
networks.
- Abstract(参考訳): 今日の生成ニューラルネットワークは、高品質な合成音声を大規模に作成できる。
この新しい技術の創造的な利用を歓迎する一方で、リスクも認識しなければなりません。
合成音声は金銭的盗難と身元確認の両方で悪用されるため、幅広い偽造識別ツールが必要である。
さらに、以前の研究では、未知のオーディオジェネレータに一般化する深い分類器の能力が限られていると報告された。
ウェーブレットパケットと短時間フーリエ変換を利用して、一般化する優れた軽量検出器を訓練する。
本稿ではWaveFakeデータセットの拡張結果について報告する。
この分野の急速な進展を考慮し,新たなAvocodoおよびBigVGANネットワークから得られたサンプルについても考察する。
関連論文リスト
- Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Rethinking the Up-Sampling Operations in CNN-based Generative Network
for Generalizable Deepfake Detection [86.97062579515833]
我々は、アップサンプリング操作から生じる一般化された構造的アーティファクトをキャプチャし、特徴付ける手段として、NPR(Neighboring Pixel Relationships)の概念を紹介した。
tft28の異なる生成モデルによって生成されたサンプルを含む、オープンワールドデータセット上で包括的な分析を行う。
この分析は、新しい最先端のパフォーマンスを確立し、既存の手法よりも優れたtft11.6%の向上を示している。
論文 参考訳(メタデータ) (2023-12-16T14:27:06Z) - All-for-One and One-For-All: Deep learning-based feature fusion for
Synthetic Speech Detection [18.429817510387473]
近年のディープラーニングとコンピュータビジョンの進歩により、マルチメディアコンテンツの合成と偽造がこれまで以上に容易にできるようになった。
本稿では,合成音声検出タスクについて文献で提案する3つの特徴セットについて考察し,それらと融合するモデルを提案する。
このシステムは異なるシナリオとデータセットでテストされ、反法医学的攻撃に対する堅牢性とその一般化能力を証明する。
論文 参考訳(メタデータ) (2023-07-28T13:50:25Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Anisotropic multiresolution analyses for deep fake detection [4.903718320156974]
Generative Adversarial Networks (GANs) は完全に新しいメディア生成機能への道を開いた。
また、悪用されたり悪用されたりして、精巧な嘘をつくり、大衆の議論を呼び起こすことができる。
これまでの研究では、k-アネレスト近隣や固有顔といった古典的な機械学習技術を用いてこの課題に取り組んできた。
GANは、主に等方的畳み込みを利用して出力を生成するため、異方的変換によって抽出されたサブバンド上の係数分布に明確な痕跡、指紋を残す。
論文 参考訳(メタデータ) (2022-10-26T17:26:09Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - WaveFake: A Data Set to Facilitate Audio Deepfake Detection [3.8073142980733]
本稿では,音声信号の解析に用いる信号処理技術について紹介する。
次に、2つの言語にまたがる5つの異なるネットワークアーキテクチャから9つのサンプルデータセットを収集した。
第3に,信号処理コミュニティから採用されている2つのベースラインモデルを実践者に提供し,さらなる研究を促進する。
論文 参考訳(メタデータ) (2021-11-04T12:26:34Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。