論文の概要: What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection
- arxiv url: http://arxiv.org/abs/2312.09651v1
- Date: Fri, 15 Dec 2023 09:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:28:29.509909
- Title: What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection
- Title(参考訳): 音のディープフェイク検出のための自己適応型連続学習
- Authors: Xiaohui Zhang, Jiangyan Yi, Chenglong Wang, Chuyuan Zhang, Siding
Zeng, Jianhua Tao
- Abstract要約: 既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
- 参考スコア(独自算出の注目度): 53.063161380423715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of speech synthesis and voice conversion has raised
substantial concerns due to the potential misuse of such technology, prompting
a pressing need for effective audio deepfake detection mechanisms. Existing
detection models have shown remarkable success in discriminating known deepfake
audio, but struggle when encountering new attack types. To address this
challenge, one of the emergent effective approaches is continual learning. In
this paper, we propose a continual learning approach called Radian Weight
Modification (RWM) for audio deepfake detection. The fundamental concept
underlying RWM involves categorizing all classes into two groups: those with
compact feature distributions across tasks, such as genuine audio, and those
with more spread-out distributions, like various types of fake audio. These
distinctions are quantified by means of the in-class cosine distance, which
subsequently serves as the basis for RWM to introduce a trainable gradient
modification direction for distinct data types. Experimental evaluations
against mainstream continual learning methods reveal the superiority of RWM in
terms of knowledge acquisition and mitigating forgetting in audio deepfake
detection. Furthermore, RWM's applicability extends beyond audio deepfake
detection, demonstrating its potential significance in diverse machine learning
domains such as image recognition.
- Abstract(参考訳): 音声合成と音声変換の急速な進化により、このような技術の誤用が懸念され、効果的な音声ディープフェイク検出機構の必要性が高まっている。
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
この課題に対処するために、創発的な効果的なアプローチの1つは継続的学習である。
本稿では,ラジアン重み修正(rwm)と呼ばれる,音のディープフェイク検出のための連続学習手法を提案する。
RWMの基礎となる概念は、すべてのクラスを2つのグループに分類することである。
これらの区別は、クラス内のコサイン距離によって定量化され、RWMが異なるデータタイプに対してトレーニング可能な勾配修正方向を導入する基礎となる。
主流の連続学習手法に対する実験評価は、知識獲得とオーディオディープフェイク検出における忘れの軽減の観点からRWMの優位性を明らかにする。
さらに、RWMの適用性はオーディオディープフェイク検出を超えて拡張され、画像認識などの多様な機械学習領域においてその潜在的重要性が示される。
関連論文リスト
- Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。