論文の概要: Audio Deepfake Detection in the Age of Advanced Text-to-Speech models
- arxiv url: http://arxiv.org/abs/2601.20510v1
- Date: Wed, 28 Jan 2026 11:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.912847
- Title: Audio Deepfake Detection in the Age of Advanced Text-to-Speech models
- Title(参考訳): 音声のディープフェイク検出による音声音声合成モデルの構築
- Authors: Robin Singh, Aditya Yogesh Nair, Fabio Palumbo, Florian Barbaro, Anna Dyka, Lohith Rachakonda,
- Abstract要約: テキスト音声合成システム(TTS)の最近の進歩は,合成音声のリアリズムを著しく高めている。
テキスト音声合成システム(TTS)の最近の進歩は,合成音声のリアリズムを著しく高めている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Text-to-Speech (TTS) systems have substantially increased the realism of synthetic speech, raising new challenges for audio deepfake detection. This work presents a comparative evaluation of three state-of-the-art TTS models--Dia2, Maya1, and MeloTTS--representing streaming, LLM-based, and non-autoregressive architectures. A corpus of 12,000 synthetic audio samples was generated using the Daily-Dialog dataset and evaluated against four detection frameworks, including semantic, structural, and signal-level approaches. The results reveal significant variability in detector performance across generative mechanisms: models effective against one TTS architecture may fail against others, particularly LLM-based synthesis. In contrast, a multi-view detection approach combining complementary analysis levels demonstrates robust performance across all evaluated models. These findings highlight the limitations of single-paradigm detectors and emphasize the necessity of integrated detection strategies to address the evolving landscape of audio deepfake threats.
- Abstract(参考訳): 最近のTTS(Text-to-Speech)システムの進歩は、合成音声の現実性を大幅に向上させ、オーディオディープフェイク検出の新たな課題を提起している。
本研究は,Dia2,Maya1,MeloTTSの3つの最先端TSモデルの比較評価を行った。
12,000の音声サンプルのコーパスをDaily-Dialogデータセットを用いて生成し,意味的,構造的,信号レベルの4つの検出フレームワークに対して評価した。
この結果から, あるTSアーキテクチャに対して有効なモデルが他のモデル, 特にLDMベースの合成に対して失敗する可能性があることが示唆された。
対照的に、相補的な分析レベルを組み合わせた多視点検出手法は、すべての評価モデルに対して堅牢な性能を示す。
これらの知見は、単一パラダイム検出器の限界を強調し、オーディオディープフェイクの脅威の進化に対処するための統合検出戦略の必要性を強調した。
関連論文リスト
- A SUPERB-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection [2.432576583937997]
Spoof-SUPERBはオーディオディープフェイク検出のためのベンチマークである。
生成性,差別性,およびスペクトログラムに基づくアーキテクチャにまたがる20のSSLモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T05:45:55Z) - T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation [41.03487954415606]
Text-to-Audio-Video (T2AV) は、自然言語から時間的コヒーレントなビデオと意味的に同期された音声を合成することを目的としている。
本稿では,T2AVシステムの総合評価のための統合ベンチマークであるT2AV-を提案する。
最強のモデルでさえ、人間レベルのリアリズムとクロスモーダルな一貫性にかなり劣っている。
論文 参考訳(メタデータ) (2025-12-24T10:30:35Z) - Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models [60.72029578488467]
アドリラルオーディオ攻撃は、人間と機械の相互作用における大きなオーディオ言語モデル(LALM)の利用の増加に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro, GPT-4oなど, 音声対話機能を有する6つの最先端LALMの評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - Exposing Synthetic Speech: Model Attribution and Detection of AI-generated Speech via Audio Fingerprints [11.703509488782345]
我々は、AI生成音声を検出するためのトレーニング不要で効果的なアプローチを導入する。
本研究では,(1)オープンワールド環境における単一モデル帰属,(2)クローズドワールド環境における多モデル帰属,(3)合成音声と実音声の検知という3つの重要な課題に取り組む。
論文 参考訳(メタデータ) (2024-11-21T10:55:49Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。