論文の概要: AFSS: Artifact-Focused Self-Synthesis for Mitigating Bias in Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2603.26856v1
- Date: Fri, 27 Mar 2026 13:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.668035
- Title: AFSS: Artifact-Focused Self-Synthesis for Mitigating Bias in Audio Deepfake Detection
- Title(参考訳): AFSS: オーディオディープフェイク検出におけるバイアス緩和のためのアーチファクト焦点自己合成
- Authors: Hai-Son Nguyen-Le, Hung-Cuong Nguyen-Thanh, Nhien-An Le-Khac, Dinh-Thuc Nguyen, Hong-Hanh Nguyen-Le,
- Abstract要約: Artifact-Focused Self-Synthesis (AFSS) は、実際のオーディオから擬似フェイクサンプルを生成するために設計された手法である。
AFSSは同一話者制約を強制し、実と擬似フェイクサンプルが同一話者アイデンティティとセマンティックコンテンツを共有することを保証する。
AFSSの最先端性能は平均5.45%で、WaveFakeでは1.23%、In-the-Wildでは2.70%と大幅に低下した。
- 参考スコア(独自算出の注目度): 1.1091582432763736
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid advancement of generative models has enabled highly realistic audio deepfakes, yet current detectors suffer from a critical bias problem, leading to poor generalization across unseen datasets. This paper proposes Artifact-Focused Self-Synthesis (AFSS), a method designed to mitigate this bias by generating pseudo-fake samples from real audio via two mechanisms: self-conversion and self-reconstruction. The core insight of AFSS lies in enforcing same-speaker constraints, ensuring that real and pseudo-fake samples share identical speaker identity and semantic content. This forces the detector to focus exclusively on generation artifacts rather than irrelevant confounding factors. Furthermore, we introduce a learnable reweighting loss to dynamically emphasize synthetic samples during training. Extensive experiments across 7 datasets demonstrate that AFSS achieves state-of-the-art performance with an average EER of 5.45\%, including a significant reduction to 1.23\% on WaveFake and 2.70\% on In-the-Wild, all while eliminating the dependency on pre-collected fake datasets. Our code is publicly available at https://github.com/NguyenLeHaiSonGit/AFSS.
- Abstract(参考訳): 生成モデルの急速な進歩により、非常にリアルなオーディオディープフェイクが可能になったが、現在の検出器は重大なバイアス問題に悩まされ、目に見えないデータセットをまたいだ一般化が不十分になった。
本稿では, 自己変換と自己再構成という2つのメカニズムを用いて, 実音声から擬似フェイクサンプルを生成し, バイアスを軽減する手法であるArtifact-Focused Self-Synthesis (AFSS)を提案する。
AFSSの中核的な洞察は、同一話者制約を強制することであり、実と擬似フェイクサンプルが同一話者アイデンティティとセマンティックコンテンツを共有することを保証する。
これにより検出器は、無関係な要因ではなく、生成アーティファクトにのみ焦点を絞らざるを得なくなる。
さらに,本研究では,学習時に合成サンプルを動的に強調するために,学習可能な再重み付け損失を導入する。
7つのデータセットにわたる大規模な実験により、AFSは平均5.45\%の最先端のパフォーマンスを達成し、WaveFakeでは1.23\%、In-the-Wildでは2.70\%に大幅に削減し、事前コンパイルされた偽のデータセットへの依存を排除した。
私たちのコードはhttps://github.com/NguyenLeHaiSonGit/AFSS.comで公開されています。
関連論文リスト
- Bona fide Cross Testing Reveals Weak Spot in Audio Deepfake Detection Systems [26.00617832033757]
我々は,多様なボナフィドデータセットを組み込んだ新しい評価フレームワークであるボナフィドクロステストを提案し,よりバランスの取れた評価のためにEERを集約する。
9種類のボナファイド音声タイプに150以上のシンセサイザーをベンチマークし、さらなる研究を促進するために新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2025-09-11T07:20:18Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Cross-Domain Audio Deepfake Detection: Dataset and Analysis [11.985093463886056]
オーディオディープフェイク検出(ADD)は、個人の権利やプライバシーを侵害する合成音声の誤用を防ぐために不可欠である。
最近のゼロショット音声合成(TTS)モデルでは、単一の発話で音声をクローンできるため、高いリスクが生じる。
我々は、5つの高度なゼロショットTSモデルによって生成される300時間以上の音声データからなる新しいクロスドメインADDデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-07T10:10:15Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Suppressing Uncertainties for Large-Scale Facial Expression Recognition [81.51495681011404]
本稿では,不確実性を効果的に抑制し,深層ネットワークが不確実な顔画像に過度に収まらないような,シンプルで効率的なセルフキュアネットワーク(SCN)を提案する。
公開ベンチマークの結果、我々のSCNは現在の最先端メソッドよりも、RAF-DBで textbf88.14%、AffectNetで textbf60.23%、FERPlusで textbf89.35% を上回りました。
論文 参考訳(メタデータ) (2020-02-24T17:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。