Fugu-MT 論文翻訳(概要): Towards generalizing deep-audio fake detection networks

論文の概要: Towards generalizing deep-audio fake detection networks

arxiv url: http://arxiv.org/abs/2305.13033v1
Date: Mon, 22 May 2023 13:37:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 15:42:44.717534
Title: Towards generalizing deep-audio fake detection networks
Title（参考訳）: ディープオーディオ偽検出ネットワークの一般化に向けて
Authors: Konstantin Gasenzer (1) and Moritz Wolter (1) ((1) High Performance Computing and Analytics Lab, Universit\"at Bonn, Germany)
Abstract要約: 生成ニューラルネットワークは、高品質な合成音声を大規模に作成することができる。我々は、目に見えないオーディオジェネレータに一般化する優れた軽量検出器を訓練する。この分野の急速な進展を考慮し,新たなAvocodoおよびBigVGANネットワークから得られたサンプルについても考察する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Today's generative neural networks allow the creation of high-quality synthetic speech at scale. While we welcome the creative use of this new technology, we must also recognize the risks. As synthetic speech is abused for both monetary and identity theft, we require a broad set of deep fake identification tools. Furthermore, previous work reported a limited ability of deep classifiers to generalize to unseen audio generators. By leveraging the wavelet-packet and short-time Fourier transform, we train excellent lightweight detectors that generalize. We report improved results on an extension of the WaveFake dataset. To account for the rapid progress in the field, we additionally consider samples drawn from the novel Avocodo and BigVGAN networks.
Abstract（参考訳）: 今日の生成ニューラルネットワークは、高品質な合成音声を大規模に作成できる。この新しい技術の創造的な利用を歓迎する一方で、リスクも認識しなければなりません。合成音声は金銭的盗難と身元確認の両方で悪用されるため、幅広い偽造識別ツールが必要である。さらに、以前の研究では、未知のオーディオジェネレータに一般化する深い分類器の能力が限られていると報告された。ウェーブレットパケットと短時間フーリエ変換を利用して、一般化する優れた軽量検出器を訓練する。本稿ではWaveFakeデータセットの拡張結果について報告する。この分野の急速な進展を考慮し,新たなAvocodoおよびBigVGANネットワークから得られたサンプルについても考察する。

関連論文リスト

AdaptPrompt: Parameter-Efficient Adaptation of VLMs for Generalizable Deepfake Detection [7.76090543025328]
画像生成の最近の進歩により、高度にリアルな合成メディアが普及し、信頼性の高いディープフェイク検出の難しさが高まっている。重要な課題は一般化であり、限られた種類の発電機で訓練された検出器は、目に見えないモデルに直面すると失敗することが多い。本稿では,大規模視覚言語モデル(特にCLIP)を活用して,多様な生成技術にまたがる合成内容の同定を行うことにより,一般化可能な検出の必要性に対処する。
論文参考訳（メタデータ） (2025-12-19T16:06:03Z)
Rethinking Cross-Generator Image Forgery Detection through DINOv3 [62.80415066351157]
クロスジェネレータ検出は、新しい挑戦フォージェネレータモデルとして登場した。凍結した視覚基盤モデル、特にDINOv3は、既に強力なクロスジェネレータ検出能力を持っていることを示す。トレーニング不要なトークンランク戦略を導入し、続いて軽量な線形プローブを用いて、認証関連トークンの小さなサブセットを選択する。
論文参考訳（メタデータ） (2025-11-27T14:01:50Z)
End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文参考訳（メタデータ） (2025-04-29T16:38:23Z)
Deepfake Media Generation and Detection in the Generative AI Era: A Survey and Outlook [101.30779332427217]
本研究は,近年の現場開発を含むディープフェイク発生・検出技術について調査する。偽コンテンツの変更や生成に使用する手順に従って,様々な種類のディープフェイクを識別する。我々は,分布外コンテンツに基づくディープフェイク検出のための新しいマルチモーダル・ベンチマークを開発した。
論文参考訳（メタデータ） (2024-11-29T08:29:25Z)
Targeted Augmented Data for Audio Deepfake Detection [11.671275975119089]
そこで本研究では,モデルの決定境界をターゲットとした音声疑似フェイク生成手法を提案する。敵の攻撃に触発されて、元の実際のデータを摂動させ、不明瞭な予測確率で擬似フェイクを合成する。
論文参考訳（メタデータ） (2024-07-10T12:31:53Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Frequency-Aware Deepfake Detection: Improving Generalizability through Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文参考訳（メタデータ） (2024-03-12T01:28:00Z)
Rethinking the Up-Sampling Operations in CNN-based Generative Network for Generalizable Deepfake Detection [86.97062579515833]
我々は、アップサンプリング操作から生じる一般化された構造的アーティファクトをキャプチャし、特徴付ける手段として、NPR(Neighboring Pixel Relationships)の概念を紹介した。 tft28の異なる生成モデルによって生成されたサンプルを含む、オープンワールドデータセット上で包括的な分析を行う。この分析は、新しい最先端のパフォーマンスを確立し、既存の手法よりも優れたtft11.6%の向上を示している。
論文参考訳（メタデータ） (2023-12-16T14:27:06Z)
MIS-AVoiDD: Modality Invariant and Specific Representation for Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文参考訳（メタデータ） (2023-10-03T17:43:24Z)
Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。提案手法は,既成話者検証ツールに基づいて実装することができる。そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文参考訳（メタデータ） (2022-09-28T13:46:29Z)
Audio Deepfake Attribution: An Initial Dataset and Investigation [41.62487394875349]
我々は、Audio Deepfake Attribution (ADA)と呼ばれるオーディオ生成ツールの属性に対する最初のディープフェイクオーディオデータセットを設計する。オープンセットオーディオディープフェイク属性(OSADA)のためのクラス・マルチセンター学習(CRML)手法を提案する。実験の結果,CRML法は実世界のシナリオにおけるオープンセットリスクに効果的に対処できることが示された。
論文参考訳（メタデータ） (2022-08-21T05:15:40Z)
Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。未探索の音声-顔のマッチングビューからディープフェイク検出を行う。我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文参考訳（メタデータ） (2022-03-04T09:08:50Z)
WaveFake: A Data Set to Facilitate Audio Deepfake Detection [3.8073142980733]
本稿では,音声信号の解析に用いる信号処理技術について紹介する。次に、2つの言語にまたがる5つの異なるネットワークアーキテクチャから9つのサンプルデータセットを収集した。第3に,信号処理コミュニティから採用されている2つのベースラインモデルを実践者に提供し,さらなる研究を促進する。
論文参考訳（メタデータ） (2021-11-04T12:26:34Z)
Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文参考訳（メタデータ） (2021-05-29T21:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。