論文の概要: What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection
- arxiv url: http://arxiv.org/abs/2312.09651v1
- Date: Fri, 15 Dec 2023 09:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:28:29.509909
- Title: What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection
- Title(参考訳): 音のディープフェイク検出のための自己適応型連続学習
- Authors: Xiaohui Zhang, Jiangyan Yi, Chenglong Wang, Chuyuan Zhang, Siding
Zeng, Jianhua Tao
- Abstract要約: 既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
- 参考スコア(独自算出の注目度): 53.063161380423715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of speech synthesis and voice conversion has raised
substantial concerns due to the potential misuse of such technology, prompting
a pressing need for effective audio deepfake detection mechanisms. Existing
detection models have shown remarkable success in discriminating known deepfake
audio, but struggle when encountering new attack types. To address this
challenge, one of the emergent effective approaches is continual learning. In
this paper, we propose a continual learning approach called Radian Weight
Modification (RWM) for audio deepfake detection. The fundamental concept
underlying RWM involves categorizing all classes into two groups: those with
compact feature distributions across tasks, such as genuine audio, and those
with more spread-out distributions, like various types of fake audio. These
distinctions are quantified by means of the in-class cosine distance, which
subsequently serves as the basis for RWM to introduce a trainable gradient
modification direction for distinct data types. Experimental evaluations
against mainstream continual learning methods reveal the superiority of RWM in
terms of knowledge acquisition and mitigating forgetting in audio deepfake
detection. Furthermore, RWM's applicability extends beyond audio deepfake
detection, demonstrating its potential significance in diverse machine learning
domains such as image recognition.
- Abstract(参考訳): 音声合成と音声変換の急速な進化により、このような技術の誤用が懸念され、効果的な音声ディープフェイク検出機構の必要性が高まっている。
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
この課題に対処するために、創発的な効果的なアプローチの1つは継続的学習である。
本稿では,ラジアン重み修正(rwm)と呼ばれる,音のディープフェイク検出のための連続学習手法を提案する。
RWMの基礎となる概念は、すべてのクラスを2つのグループに分類することである。
これらの区別は、クラス内のコサイン距離によって定量化され、RWMが異なるデータタイプに対してトレーニング可能な勾配修正方向を導入する基礎となる。
主流の連続学習手法に対する実験評価は、知識獲得とオーディオディープフェイク検出における忘れの軽減の観点からRWMの優位性を明らかにする。
さらに、RWMの適用性はオーディオディープフェイク検出を超えて拡張され、画像認識などの多様な機械学習領域においてその潜在的重要性が示される。
関連論文リスト
- Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Generalized Source Tracing: Detecting Novel Audio Deepfake Algorithm with Real Emphasis and Fake Dispersion Strategy [39.93628750014384]
本稿では,音声ディープフェイク音声認識のためのReal Emphasis and Fake Dispersion(REFD)戦略を提案する。
REFDはAudio Deepfake Detection Challenge 2023 Track3で86.83%のF1スコアを達成した。
論文 参考訳(メタデータ) (2024-06-05T13:16:55Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。