論文の概要: SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection
- arxiv url: http://arxiv.org/abs/2603.20686v1
- Date: Sat, 21 Mar 2026 07:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.037994
- Title: SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection
- Title(参考訳): 音声ディープフェイク検出におけるアーチファクト投影のためのSNAP
- Authors: Kyudan Jung, Jihwan Kim, Minwoo Lee, Soyoon Kim, Jeonghoon Kim, Jaegul Choo, Cheonbok Park,
- Abstract要約: 自己教師付き学習ベースの音声エンコーダは、目に見えない話者を一般化するのに苦労する。
話者の絡み合いは、検出者が人工物に関連する手がかりではなく、話者固有の相関を悪用する原因となる。
我々は、この依存を軽減するために、SNAPという話者無効化フレームワークを紹介した。
- 参考スコア(独自算出の注目度): 51.096014381455454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in text-to-speech technologies enable generating high-fidelity synthetic speech nearly indistinguishable from real human voices. While recent studies show the efficacy of self-supervised learning-based speech encoders for deepfake detection, these models struggle to generalize across unseen speakers. Our quantitative analysis suggests these encoder representations are substantially influenced by speaker information, causing detectors to exploit speaker-specific correlations rather than artifact-related cues. We call this phenomenon speaker entanglement. To mitigate this reliance, we introduce SNAP, a speaker-nulling framework. We estimate a speaker subspace and apply orthogonal projection to suppress speaker-dependent components, isolating synthesis artifacts within the residual features. By reducing speaker entanglement, SNAP encourages detectors to focus on artifact-related patterns, leading to state-of-the-art performance.
- Abstract(参考訳): 近年のテキスト音声合成技術の進歩により、実声とほぼ区別できない高忠実な合成音声を生成することができる。
近年の研究では、ディープフェイク検出のための自己教師付き学習ベース音声エンコーダの有効性が示されているが、これらのモデルは、目に見えない話者を対象とする一般化に苦慮している。
定量的解析により,これらのエンコーダ表現は話者情報に大きく影響されることが示唆された。
私たちはこの現象を話者の絡み目と呼ぶ。
この依存を軽減するため、SNAPは話者のNullingフレームワークである。
話者部分空間を推定し、直交射影を適用して話者依存成分を抑え、残像内の合成アーティファクトを分離する。
SNAPは、話者の絡みを小さくすることで、検知器がアーティファクト関連のパターンに集中することを奨励し、最先端のパフォーマンスをもたらす。
関連論文リスト
- Identifying Speaker Information in Feed-Forward Layers of Self-Supervised Speech Transformers [50.9040167152168]
我々は,k-meansの自己監督的特徴とi-vectorに関連するニューロンを解析した。
分析の結果,これらのクラスタは幅広い音韻クラスとジェンダークラスに対応していることがわかった。
これらのニューロンをプルーニング中に保護することにより、話者関連タスクの性能を著しく維持することができる。
論文 参考訳(メタデータ) (2025-06-26T18:54:26Z) - Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with
Disentangled Representations [12.388567657230116]
一般化可能なゼロショット話者適応音声変換モデルを提案する。
GZS-TVは、話者埋め込み抽出と音色変換のための不整合表現学習を導入した。
実験により、GZS-TVは、目に見えない話者の性能劣化を低減し、複数のデータセットで全てのベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T18:13:10Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Disentangled dimensionality reduction for noise-robust speaker
diarisation [30.383712356205084]
話者埋め込みはダイアリゼーションシステムの性能において重要な役割を果たす。
話者埋め込みは、しばしばノイズや残響などの急激な情報を捉え、性能に悪影響を及ぼす。
本稿では,話者埋め込みから急激な情報を解き放つことのできる新しい次元還元フレームワークを提案する。
また,背景雑音から話者コードが学習されるのを防止するために,音声・非音声指標も提案する。
論文 参考訳(メタデータ) (2021-10-07T12:19:09Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。