論文の概要: Compression Robust Synthetic Speech Detection Using Patched Spectrogram
Transformer
- arxiv url: http://arxiv.org/abs/2402.14205v1
- Date: Thu, 22 Feb 2024 01:18:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:55:07.829642
- Title: Compression Robust Synthetic Speech Detection Using Patched Spectrogram
Transformer
- Title(参考訳): patched spectrogram transformerを用いた圧縮ロバスト合成音声検出
- Authors: Amit Kumar Singh Yadav, Ziyue Xiang, Kratika Bhagtani, Paolo
Bestagini, Stefano Tubaro, Edward J. Delp
- Abstract要約: 我々は、パッチ付きスペクトログラム合成音声検出変換器(PS3DT)を提案する。
PS3DTは、時間領域の音声信号をメルスペクトルに変換し、トランスフォーマーニューラルネットワークを用いてパッチで処理する合成音声検出器である。
ASVspoof 2019データセットにおけるPS3DTの検出性能について検討した。
- 参考スコア(独自算出の注目度): 22.538895728224386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many deep learning synthetic speech generation tools are readily available.
The use of synthetic speech has caused financial fraud, impersonation of
people, and misinformation to spread. For this reason forensic methods that can
detect synthetic speech have been proposed. Existing methods often overfit on
one dataset and their performance reduces substantially in practical scenarios
such as detecting synthetic speech shared on social platforms. In this paper we
propose, Patched Spectrogram Synthetic Speech Detection Transformer (PS3DT), a
synthetic speech detector that converts a time domain speech signal to a
mel-spectrogram and processes it in patches using a transformer neural network.
We evaluate the detection performance of PS3DT on ASVspoof2019 dataset. Our
experiments show that PS3DT performs well on ASVspoof2019 dataset compared to
other approaches using spectrogram for synthetic speech detection. We also
investigate generalization performance of PS3DT on In-the-Wild dataset. PS3DT
generalizes well than several existing methods on detecting synthetic speech
from an out-of-distribution dataset. We also evaluate robustness of PS3DT to
detect telephone quality synthetic speech and synthetic speech shared on social
platforms (compressed speech). PS3DT is robust to compression and can detect
telephone quality synthetic speech better than several existing methods.
- Abstract(参考訳): 多くのディープラーニング合成音声生成ツールが利用可能である。
合成音声の使用は、金融詐欺、人物の偽装、誤情報の拡散を引き起こした。
このため,合成音声を検出できる法医学的手法が提案されている。
既存の手法は1つのデータセットに過度に適合することが多く、ソーシャルプラットフォーム上で共有される合成音声の検出などの実践的なシナリオでは性能が大幅に低下する。
本稿では,時間領域の音声信号をメルスペクトルに変換し,変換器ニューラルネットワークを用いてパッチで処理する合成音声検出器であるPatched Spectrogram Synthetic Speech Detection Transformer (PS3DT)を提案する。
ASVspoof2019データセットにおけるPS3DTの検出性能を評価する。
実験の結果,PS3DTは合成音声検出のためのスペクトログラムを用いた他の手法と比較して,ASVspoof2019データセットで良好に動作することがわかった。
In-the-Wildデータセット上でのPS3DTの一般化性能についても検討する。
ps3dtは、アウトオブディストリビューションデータセットから合成音声を検出するための既存の方法よりも多く一般化している。
また,ps3dtのロバスト性を評価し,電話品質合成音声とソーシャルプラットフォームで共有される合成音声(圧縮音声)を検出する。
ps3dtは圧縮に頑健であり、既存の方法よりも電話品質の合成音声を検出できる。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - DiffSSD: A Diffusion-Based Dataset For Speech Forensics [15.919164272315227]
拡散型音声生成装置はユビキタスであり, 高品質な合成音声を生成することができる。
このような誤用に対抗するため、合成音声検出器が開発された。
これらの検出器の多くは拡散ベースのシンセサイザーを含まないデータセットで訓練されている。
論文 参考訳(メタデータ) (2024-09-19T18:55:13Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - DSVAE: Interpretable Disentangled Representation for Synthetic Speech
Detection [25.451749986565375]
合成音声を検出するための音声信号の解釈可能な表現を生成するために,Dis Spectrogram Variational Autoentangle (DSVAE)を提案する。
実験の結果, 未知音声合成者11名中6名中10名中98%が, 高い精度 (>98%) を示した。
論文 参考訳(メタデータ) (2023-04-06T18:37:26Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Transformer-Based Speech Synthesizer Attribution in an Open Set Scenario [16.93803259128475]
音声合成法は、詐欺、偽造、誤情報キャンペーンに使用できる現実的な音声を生成することができる。
法医学的帰属法は、音声信号を生成するために使用される特定の音声合成法を特定する。
学習中に見えない新しい合成器に一般化する音声帰属法を提案する。
論文 参考訳(メタデータ) (2022-10-14T05:55:21Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Synthesized Speech Detection Using Convolutional Transformer-Based
Spectrogram Analysis [16.93803259128475]
合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的に使用できる。
本稿では,合成音声検出のためのコンパクト畳み込み変換器を用いて,スペクトル形音声信号の解析を行う。
論文 参考訳(メタデータ) (2022-05-03T22:05:35Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。