Fugu-MT 論文翻訳(概要): What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection

論文の概要: What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection

arxiv url: http://arxiv.org/abs/2312.09651v1
Date: Fri, 15 Dec 2023 09:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-18 16:28:29.509909
Title: What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection
Title（参考訳）: 音のディープフェイク検出のための自己適応型連続学習
Authors: Xiaohui Zhang, Jiangyan Yi, Chenglong Wang, Chuyuan Zhang, Siding Zeng, Jianhua Tao
Abstract要約: 既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
参考スコア（独自算出の注目度）: 53.063161380423715
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid evolution of speech synthesis and voice conversion has raised substantial concerns due to the potential misuse of such technology, prompting a pressing need for effective audio deepfake detection mechanisms. Existing detection models have shown remarkable success in discriminating known deepfake audio, but struggle when encountering new attack types. To address this challenge, one of the emergent effective approaches is continual learning. In this paper, we propose a continual learning approach called Radian Weight Modification (RWM) for audio deepfake detection. The fundamental concept underlying RWM involves categorizing all classes into two groups: those with compact feature distributions across tasks, such as genuine audio, and those with more spread-out distributions, like various types of fake audio. These distinctions are quantified by means of the in-class cosine distance, which subsequently serves as the basis for RWM to introduce a trainable gradient modification direction for distinct data types. Experimental evaluations against mainstream continual learning methods reveal the superiority of RWM in terms of knowledge acquisition and mitigating forgetting in audio deepfake detection. Furthermore, RWM's applicability extends beyond audio deepfake detection, demonstrating its potential significance in diverse machine learning domains such as image recognition.
Abstract（参考訳）: 音声合成と音声変換の急速な進化により、このような技術の誤用が懸念され、効果的な音声ディープフェイク検出機構の必要性が高まっている。既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。この課題に対処するために、創発的な効果的なアプローチの1つは継続的学習である。本稿では,ラジアン重み修正(rwm)と呼ばれる,音のディープフェイク検出のための連続学習手法を提案する。 RWMの基礎となる概念は、すべてのクラスを2つのグループに分類することである。これらの区別は、クラス内のコサイン距離によって定量化され、RWMが異なるデータタイプに対してトレーニング可能な勾配修正方向を導入する基礎となる。主流の連続学習手法に対する実験評価は、知識獲得とオーディオディープフェイク検出における忘れの軽減の観点からRWMの優位性を明らかにする。さらに、RWMの適用性はオーディオディープフェイク検出を超えて拡張され、画像認識などの多様な機械学習領域においてその潜在的重要性が示される。

関連論文リスト

Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-23T11:15:22Z)
Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文参考訳（メタデータ） (2025-03-21T23:21:17Z)
Region-Based Optimization in Continual Learning for Audio Deepfake Detection [47.70461149484284]
本稿では,オーディオディープフェイク検出のための領域ベース最適化(RegO)という連続学習手法を提案する。実験結果から,本手法は音声深度検出のための最先端の連続学習手法RWMに対して,21.3%のEER向上を実現していることがわかった。 RegOの有効性は、オーディオディープフェイク検出ドメインを超えて拡張され、画像認識などの他のタスクにおいて潜在的に重要となる。
論文参考訳（メタデータ） (2024-12-16T08:34:09Z)
Audios Don't Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection [0.0]
マルチ周波数チャネルアテンション機構(MFCA)と2次元離散コサイン変換(DCT)に基づくオーディオディープフェイク検出手法を提案する。音声信号をメルスペクトログラムに処理し、MobileNet V2を用いて深い特徴を抽出することにより、音声信号の微細な周波数領域の特徴を効果的に捉えることができる。実験の結果,従来の手法と比較して,精度,精度,リコール,F1スコア,その他の指標において有意な優位性を示した。
論文参考訳（メタデータ） (2024-12-12T17:15:49Z)
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-02T18:45:01Z)
Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。モデルの識別能力を高めるため,統計的特徴損失を提案する。 DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文参考訳（メタデータ） (2024-07-16T12:15:41Z)
Generalized Source Tracing: Detecting Novel Audio Deepfake Algorithm with Real Emphasis and Fake Dispersion Strategy [39.93628750014384]
本稿では,音声ディープフェイク音声認識のためのReal Emphasis and Fake Dispersion(REFD)戦略を提案する。 REFDはAudio Deepfake Detection Challenge 2023 Track3で86.83%のF1スコアを達成した。
論文参考訳（メタデータ） (2024-06-05T13:16:55Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
MIS-AVoiDD: Modality Invariant and Specific Representation for Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文参考訳（メタデータ） (2023-10-03T17:43:24Z)
Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文参考訳（メタデータ） (2023-08-07T05:05:49Z)
Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文参考訳（メタデータ） (2022-03-02T17:44:40Z)
Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文参考訳（メタデータ） (2022-02-19T03:48:20Z)
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。 SERの主な課題の1つは、データの不足である。本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文参考訳（メタデータ） (2021-08-05T10:39:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。