論文の概要: Multi-level SSL Feature Gating for Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2509.03409v1
- Date: Wed, 03 Sep 2025 15:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.576564
- Title: Multi-level SSL Feature Gating for Audio Deepfake Detection
- Title(参考訳): オーディオディープフェイク検出のためのマルチレベルSSL機能ゲーティング
- Authors: Hoan My Tran, Damien Lolive, Aghilas Sini, Arnaud Delhay, Pierre-François Marteau, David Guennec,
- Abstract要約: 生成AIの最近の進歩、特に音声合成は、非常に自然な音声合成音声の生成を可能にしている。
これらのイノベーションは、不正行為の誤用、ID盗難、セキュリティの脅威など、重大なリスクをもたらす。
スプーフィング検出対策の現在の研究は、未確認のディープフェイク攻撃や言語への一般化によって制限されている。
本稿では,フロントエンド特徴抽出器として音声基礎XLS-Rモデルから関連する特徴を抽出するゲーティング機構を提案する。
- 参考スコア(独自算出の注目度): 4.053610356853999
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in generative AI, particularly in speech synthesis, have enabled the generation of highly natural-sounding synthetic speech that closely mimics human voices. While these innovations hold promise for applications like assistive technologies, they also pose significant risks, including misuse for fraudulent activities, identity theft, and security threats. Current research on spoofing detection countermeasures remains limited by generalization to unseen deepfake attacks and languages. To address this, we propose a gating mechanism extracting relevant feature from the speech foundation XLS-R model as a front-end feature extractor. For downstream back-end classifier, we employ Multi-kernel gated Convolution (MultiConv) to capture both local and global speech artifacts. Additionally, we introduce Centered Kernel Alignment (CKA) as a similarity metric to enforce diversity in learned features across different MultiConv layers. By integrating CKA with our gating mechanism, we hypothesize that each component helps improving the learning of distinct synthetic speech patterns. Experimental results demonstrate that our approach achieves state-of-the-art performance on in-domain benchmarks while generalizing robustly to out-of-domain datasets, including multilingual speech samples. This underscores its potential as a versatile solution for detecting evolving speech deepfake threats.
- Abstract(参考訳): 生成AIの最近の進歩、特に音声合成は、人間の声を忠実に模倣する非常に自然な音声合成音声の生成を可能にしている。
これらのイノベーションは、補助技術のようなアプリケーションに約束する一方で、不正行為の誤用、ID盗難、セキュリティの脅威など、重大なリスクも生じている。
スプーフィング検出対策の現在の研究は、未確認のディープフェイク攻撃や言語への一般化によって制限されている。
そこで本研究では,音声基礎XLS-Rモデルから関連する特徴を抽出するゲーティング機構をフロントエンド特徴抽出器として提案する。
下流のバックエンド分類器では、ローカルおよびグローバル両方の音声アーティファクトをキャプチャするためにマルチカーネルゲート・コンボリューション(MultiConv)を用いる。
さらに,Centered Kernel Alignment (CKA) を類似度指標として導入し,異なるマルチConv層にまたがる学習機能の多様性を実現する。
CKAとゲーティング機構を統合することで、各コンポーネントが異なる合成音声パターンの学習を改善することができると仮定する。
実験結果から,本手法はドメイン内ベンチマークにおける最先端性能を実現するとともに,多言語音声サンプルを含むドメイン外のデータセットに頑健に一般化することを示した。
このことは、進化する音声ディープフェイクの脅威を検出する汎用的なソリューションとしての可能性を強調している。
関連論文リスト
- Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - All-for-One and One-For-All: Deep learning-based feature fusion for
Synthetic Speech Detection [18.429817510387473]
近年のディープラーニングとコンピュータビジョンの進歩により、マルチメディアコンテンツの合成と偽造がこれまで以上に容易にできるようになった。
本稿では,合成音声検出タスクについて文献で提案する3つの特徴セットについて考察し,それらと融合するモデルを提案する。
このシステムは異なるシナリオとデータセットでテストされ、反法医学的攻撃に対する堅牢性とその一般化能力を証明する。
論文 参考訳(メタデータ) (2023-07-28T13:50:25Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations [2.8038382295783943]
会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T16:45:50Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。