論文の概要: What Counts as Real? Speech Restoration and Voice Quality Conversion Pose New Challenges to Deepfake Detection
- arxiv url: http://arxiv.org/abs/2603.14033v1
- Date: Sat, 14 Mar 2026 17:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.562307
- Title: What Counts as Real? Speech Restoration and Voice Quality Conversion Pose New Challenges to Deepfake Detection
- Title(参考訳): 実数とは何か? 音声の復元と音声品質の変換 : ディープフェイク検出への新たな挑戦
- Authors: Shree Harsha Bokkahalli Satish, Harm Lameris, Joakim Gustafson, Éva Székely,
- Abstract要約: 音素修正音声変換と音声復元は, アウト・オブ・ディストリビューションとして扱われることを示す。
マルチクラス問題としてのアンチスプーフィングは、スプーフィング検出を保存しながら、良性シフトに対する堅牢性を向上する。
- 参考スコア(独自算出の注目度): 22.710371114925763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio anti-spoofing systems are typically formulated as binary classifiers distinguishing bona fide from spoofed speech. This assumption fails under layered generative processing, where benign transformations introduce distributional shifts that are misclassified as spoofing. We show that phonation-modifying voice conversion and speech restoration are treated as out-of-distribution despite preserving speaker authenticity. Using a multi-class setup separating bona fide, converted, spoofed, and converted-spoofed speech, we analyse model behaviour through self-supervised learning (SSL) embeddings and acoustic correlates. The benign transformations induce a drift in the SSL space, compressing bona fide and spoofed speech and reducing classifier separability. Reformulating anti-spoofing as a multi-class problem improves robustness to benign shifts while preserving spoof detection, suggesting binary systems model the distribution of raw speech rather than authenticity itself.
- Abstract(参考訳): 音声のアンチ・スプーフィングシステムは、通常、二項分類器として定式化され、ボナ・フェイドとスプーフィングを区別する。
この仮定は層状生成処理では失敗し、良性変換はスプーフィングと誤分類された分布シフトを導入する。
話者の信頼を保ちながら、音素修正音声変換と音声復元を非分布として扱うことを示す。
ボナフィド, 変換, スプーフ, 変換音声を分離したマルチクラス設定を用いて, 自己教師付き学習(SSL)埋め込みと音響相関を用いてモデル行動を分析する。
良性変換はSSL空間のドリフトを引き起こし、ボナ・フェイドとスプーフされた音声を圧縮し、分類器分離性を低減する。
マルチクラス問題としてのアンチ・スプーフの改質は、スプーフ検出を保ちながら良心シフトの堅牢性を向上させる。
関連論文リスト
- VocalBridge: Latent Diffusion-Bridge Purification for Defeating Perturbation-Based Voiceprint Defenses [3.348046946735795]
最近の防衛は、保護的摂動を音声に埋め込むことによって、不正なクローン化を防ごうとしている。
本稿では,EnCodec潜伏空間における摂動からクリーン音声への潜伏写像を学習する浄化フレームワークであるVocalBridgeを提案する。
提案手法は, 保護音声からのクローン音声の回収において, 既存の浄化方法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-01-05T13:43:30Z) - MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文 参考訳(メタデータ) (2025-10-12T09:05:28Z) - SEED: Speaker Embedding Enhancement Diffusion Model [27.198463567915386]
実世界のアプリケーションに話者認識システムを配置する際の最大の課題は、環境ミスマッチによる性能劣化である。
本稿では,事前学習した話者認識モデルから抽出した話者埋め込みを拡散ベースで取得し,洗練された埋め込みを生成する手法を提案する。
本手法は,従来のシナリオの性能を維持しつつ,ベースラインモデルよりも19.6%の精度で認識精度を向上させることができる。
論文 参考訳(メタデータ) (2025-05-22T15:38:37Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Adversarial Text Purification: A Large Language Model Approach for
Defense [25.041109219049442]
敵の浄化は、敵の攻撃に対して分類器を保護するための防御機構である。
そこで本稿では,大規模言語モデルの生成能力を生かした,新たな逆文清浄法を提案する。
提案手法は,様々な分類器に対して顕著な性能を示し,攻撃時の精度を平均65%以上向上させる。
論文 参考訳(メタデータ) (2024-02-05T02:36:41Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。