論文の概要: Region-Based Optimization in Continual Learning for Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2412.11551v1
- Date: Mon, 16 Dec 2024 08:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:51.500233
- Title: Region-Based Optimization in Continual Learning for Audio Deepfake Detection
- Title(参考訳): オーディオディープフェイク検出のための連続学習における領域ベース最適化
- Authors: Yujie Chen, Jiangyan Yi, Cunhang Fan, Jianhua Tao, Yong Ren, Siding Zeng, Chu Yuan Zhang, Xinrui Yan, Hao Gu, Jun Xue, Chenglong Wang, Zhao Lv, Xiaohui Zhang,
- Abstract要約: 本稿では,オーディオディープフェイク検出のための領域ベース最適化(RegO)という連続学習手法を提案する。
実験結果から,本手法は音声深度検出のための最先端の連続学習手法RWMに対して,21.3%のEER向上を実現していることがわかった。
RegOの有効性は、オーディオディープフェイク検出ドメインを超えて拡張され、画像認識などの他のタスクにおいて潜在的に重要となる。
- 参考スコア(独自算出の注目度): 47.70461149484284
- License:
- Abstract: Rapid advancements in speech synthesis and voice conversion bring convenience but also new security risks, creating an urgent need for effective audio deepfake detection. Although current models perform well, their effectiveness diminishes when confronted with the diverse and evolving nature of real-world deepfakes. To address this issue, we propose a continual learning method named Region-Based Optimization (RegO) for audio deepfake detection. Specifically, we use the Fisher information matrix to measure important neuron regions for real and fake audio detection, dividing them into four regions. First, we directly fine-tune the less important regions to quickly adapt to new tasks. Next, we apply gradient optimization in parallel for regions important only to real audio detection, and in orthogonal directions for regions important only to fake audio detection. For regions that are important to both, we use sample proportion-based adaptive gradient optimization. This region-adaptive optimization ensures an appropriate trade-off between memory stability and learning plasticity. Additionally, to address the increase of redundant neurons from old tasks, we further introduce the Ebbinghaus forgetting mechanism to release them, thereby promoting the capability of the model to learn more generalized discriminative features. Experimental results show our method achieves a 21.3% improvement in EER over the state-of-the-art continual learning approach RWM for audio deepfake detection. Moreover, the effectiveness of RegO extends beyond the audio deepfake detection domain, showing potential significance in other tasks, such as image recognition. The code is available at https://github.com/cyjie429/RegO
- Abstract(参考訳): 音声合成と音声変換の急速な進歩は、利便性をもたらすだけでなく、新たなセキュリティリスクをもたらす。
現在のモデルはよく機能するが、実世界のディープフェイクの多様性と進化する性質に直面すると、その効果は減少する。
この問題に対処するため,オーディオディープフェイク検出のための領域ベース最適化(RegO)という連続学習手法を提案する。
具体的には、フィッシャー情報行列を用いて、重要なニューロン領域を実と偽の音声検出のために測定し、それらを4つの領域に分割する。
まず、重要でない領域を直接微調整して、新しいタスクに迅速に適応します。
次に、実際の音声検出にのみ重要となる領域と、偽音声検出にのみ重要となる領域の直交方向に並列に勾配最適化を適用する。
双方にとって重要な領域については、サンプル比例に基づく適応勾配最適化を用いる。
この領域適応最適化は、メモリ安定性と学習可塑性の間の適切なトレードオフを保証する。
さらに,従来のタスクからの冗長ニューロンの増加に対処するために,エビングハウスを忘れるメカニズムを導入し,より一般化された識別的特徴を学習するためのモデルの能力を促進する。
実験結果から,本手法は音声深度検出のための最先端の連続学習手法RWMに対して,21.3%のEER向上を実現していることがわかった。
さらに、RegOの有効性はオーディオディープフェイク検出領域を超えて拡張され、画像認識などの他のタスクにおいて潜在的に重要となる。
コードはhttps://github.com/cyjie429/RegOで入手できる。
関連論文リスト
- DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
本稿では,新しいオーディオ・ビジュアル・ディープフェイク検出フレームワークを提案する。
実際のサンプルでは、ディープフェイクとは対照的に、視覚信号と音声信号は情報の観点から一致しているという仮定に基づいている。
ビデオと音声の音声認識に特化しているディープネットワークの機能を、フレームレベルのクロスモーダルな矛盾を見つけるために使用しています。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Learn Fine-grained Adaptive Loss for Multiple Anatomical Landmark
Detection in Medical Images [15.7026400415269]
本稿ではランドマーク検出のための新しい学習学習フレームワークを提案する。
提案手法は汎用的であり,解剖学的ランドマーク検出の効率向上の可能性を示す。
論文 参考訳(メタデータ) (2021-05-19T13:39:18Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。