論文の概要: Audio Deepfake Detection in the Age of Advanced Text-to-Speech models
- arxiv url: http://arxiv.org/abs/2601.20510v1
- Date: Wed, 28 Jan 2026 11:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.912847
- Title: Audio Deepfake Detection in the Age of Advanced Text-to-Speech models
- Title(参考訳): 音声のディープフェイク検出による音声音声合成モデルの構築
- Authors: Robin Singh, Aditya Yogesh Nair, Fabio Palumbo, Florian Barbaro, Anna Dyka, Lohith Rachakonda,
- Abstract要約: テキスト音声合成システム(TTS)の最近の進歩は,合成音声のリアリズムを著しく高めている。
テキスト音声合成システム(TTS)の最近の進歩は,合成音声のリアリズムを著しく高めている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Text-to-Speech (TTS) systems have substantially increased the realism of synthetic speech, raising new challenges for audio deepfake detection. This work presents a comparative evaluation of three state-of-the-art TTS models--Dia2, Maya1, and MeloTTS--representing streaming, LLM-based, and non-autoregressive architectures. A corpus of 12,000 synthetic audio samples was generated using the Daily-Dialog dataset and evaluated against four detection frameworks, including semantic, structural, and signal-level approaches. The results reveal significant variability in detector performance across generative mechanisms: models effective against one TTS architecture may fail against others, particularly LLM-based synthesis. In contrast, a multi-view detection approach combining complementary analysis levels demonstrates robust performance across all evaluated models. These findings highlight the limitations of single-paradigm detectors and emphasize the necessity of integrated detection strategies to address the evolving landscape of audio deepfake threats.
- Abstract(参考訳): 最近のTTS(Text-to-Speech)システムの進歩は、合成音声の現実性を大幅に向上させ、オーディオディープフェイク検出の新たな課題を提起している。
本研究は,Dia2,Maya1,MeloTTSの3つの最先端TSモデルの比較評価を行った。
12,000の音声サンプルのコーパスをDaily-Dialogデータセットを用いて生成し,意味的,構造的,信号レベルの4つの検出フレームワークに対して評価した。
この結果から, あるTSアーキテクチャに対して有効なモデルが他のモデル, 特にLDMベースの合成に対して失敗する可能性があることが示唆された。
対照的に、相補的な分析レベルを組み合わせた多視点検出手法は、すべての評価モデルに対して堅牢な性能を示す。
これらの知見は、単一パラダイム検出器の限界を強調し、オーディオディープフェイクの脅威の進化に対処するための統合検出戦略の必要性を強調した。
関連論文リスト
- Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。