論文の概要: DiffSSD: A Diffusion-Based Dataset For Speech Forensics
- arxiv url: http://arxiv.org/abs/2409.13049v1
- Date: Wed, 2 Oct 2024 13:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:14:24.698069
- Title: DiffSSD: A Diffusion-Based Dataset For Speech Forensics
- Title(参考訳): DiffSSD: 音声鑑定のための拡散ベースデータセット
- Authors: Kratika Bhagtani, Amit Kumar Singh Yadav, Paolo Bestagini, Edward J. Delp,
- Abstract要約: 拡散型音声生成装置はユビキタスであり, 高品質な合成音声を生成することができる。
このような誤用に対抗するため、合成音声検出器が開発された。
これらの検出器の多くは拡散ベースのシンセサイザーを含まないデータセットで訓練されている。
- 参考スコア(独自算出の注目度): 15.919164272315227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based speech generators are ubiquitous. These methods can generate very high quality synthetic speech and several recent incidents report their malicious use. To counter such misuse, synthetic speech detectors have been developed. Many of these detectors are trained on datasets which do not include diffusion-based synthesizers. In this paper, we demonstrate that existing detectors trained on one such dataset, ASVspoof2019, do not perform well in detecting synthetic speech from recent diffusion-based synthesizers. We propose the Diffusion-Based Synthetic Speech Dataset (DiffSSD), a dataset consisting of about 200 hours of labeled speech, including synthetic speech generated by 8 diffusion-based open-source and 2 commercial generators. We also examine the performance of existing synthetic speech detectors on DiffSSD in both closed-set and open-set scenarios. The results highlight the importance of this dataset in detecting synthetic speech generated from recent open-source and commercial speech generators.
- Abstract(参考訳): 拡散に基づく音声生成装置はユビキタスである。
これらの手法は、非常に高品質な合成音声を生成することができ、近年のいくつかの事件では、その悪用が報告されている。
このような誤用に対抗するため、合成音声検出器が開発された。
これらの検出器の多くは拡散ベースのシンセサイザーを含まないデータセットで訓練されている。
本稿では,1つのデータセット ASVspoof2019 で訓練された既存の検出器が,近年の拡散型合成器から合成音声を検出するのに有効ではないことを示す。
約200時間のラベル付き音声からなるDiffSSD(Diffusion-based Synthetic Speech Dataset)を提案する。
また,DiffSSDにおける既存の合成音声検出装置の性能を,クローズドセットとオープンセットの両方のシナリオで検証した。
その結果,近年のオープンソースおよび商用音声生成装置から生成された合成音声を検出する上で,このデータセットの重要性が浮き彫りになった。
関連論文リスト
- FairSSD: Understanding Bias in Synthetic Speech Detectors [15.548402598331275]
既存の音声検出装置のバイアスを調べ、特定の性別、年齢、アクセントグループを不公平にターゲットするかどうかを判定する。
0.9万以上の音声信号を用いた6つの既存の合成音声検出器の実験では、ほとんどの検出器は性別、年齢、アクセントに偏っていることが示されている。
論文 参考訳(メタデータ) (2024-04-17T01:53:03Z) - Compression Robust Synthetic Speech Detection Using Patched Spectrogram
Transformer [22.538895728224386]
我々は、パッチ付きスペクトログラム合成音声検出変換器(PS3DT)を提案する。
PS3DTは、時間領域の音声信号をメルスペクトルに変換し、トランスフォーマーニューラルネットワークを用いてパッチで処理する合成音声検出器である。
ASVspoof 2019データセットにおけるPS3DTの検出性能について検討した。
論文 参考訳(メタデータ) (2024-02-22T01:18:55Z) - Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - DSVAE: Interpretable Disentangled Representation for Synthetic Speech
Detection [25.451749986565375]
合成音声を検出するための音声信号の解釈可能な表現を生成するために,Dis Spectrogram Variational Autoentangle (DSVAE)を提案する。
実験の結果, 未知音声合成者11名中6名中10名中98%が, 高い精度 (>98%) を示した。
論文 参考訳(メタデータ) (2023-04-06T18:37:26Z) - Transformer-Based Speech Synthesizer Attribution in an Open Set Scenario [16.93803259128475]
音声合成法は、詐欺、偽造、誤情報キャンペーンに使用できる現実的な音声を生成することができる。
法医学的帰属法は、音声信号を生成するために使用される特定の音声合成法を特定する。
学習中に見えない新しい合成器に一般化する音声帰属法を提案する。
論文 参考訳(メタデータ) (2022-10-14T05:55:21Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。