論文の概要: DSVAE: Interpretable Disentangled Representation for Synthetic Speech
Detection
- arxiv url: http://arxiv.org/abs/2304.03323v2
- Date: Fri, 28 Jul 2023 20:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 23:06:53.711290
- Title: DSVAE: Interpretable Disentangled Representation for Synthetic Speech
Detection
- Title(参考訳): DSVAE:合成音声検出のための解釈可能な不整合表現
- Authors: Amit Kumar Singh Yadav, Kratika Bhagtani, Ziyue Xiang, Paolo
Bestagini, Stefano Tubaro, Edward J. Delp
- Abstract要約: 合成音声を検出するための音声信号の解釈可能な表現を生成するために,Dis Spectrogram Variational Autoentangle (DSVAE)を提案する。
実験の結果, 未知音声合成者11名中6名中10名中98%が, 高い精度 (>98%) を示した。
- 参考スコア(独自算出の注目度): 25.451749986565375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tools to generate high quality synthetic speech signal that is perceptually
indistinguishable from speech recorded from human speakers are easily
available. Several approaches have been proposed for detecting synthetic
speech. Many of these approaches use deep learning methods as a black box
without providing reasoning for the decisions they make. This limits the
interpretability of these approaches. In this paper, we propose Disentangled
Spectrogram Variational Auto Encoder (DSVAE) which is a two staged trained
variational autoencoder that processes spectrograms of speech using
disentangled representation learning to generate interpretable representations
of a speech signal for detecting synthetic speech. DSVAE also creates an
activation map to highlight the spectrogram regions that discriminate synthetic
and bona fide human speech signals. We evaluated the representations obtained
from DSVAE using the ASVspoof2019 dataset. Our experimental results show high
accuracy (>98%) on detecting synthetic speech from 6 known and 10 out of 11
unknown speech synthesizers. We also visualize the representation obtained from
DSVAE for 17 different speech synthesizers and verify that they are indeed
interpretable and discriminate bona fide and synthetic speech from each of the
synthesizers.
- Abstract(参考訳): 人間の話者から録音された音声と知覚的に区別できない高品質な合成音声信号を生成するツールは容易に利用できる。
合成音声の検出にはいくつかの手法が提案されている。
これらのアプローチの多くは、深層学習をブラックボックスとして使用し、意思決定の理由を提供しない。
これはこれらのアプローチの解釈可能性を制限する。
本稿では,合成音声を検出するための音声信号の解釈可能な表現を生成するために,不整形表現学習を用いて音声のスペクトルを処理する2段階訓練型変分オートエンコーダ(DSVAE)を提案する。
DSVAEはまた、人間の音声信号を識別する分光器領域をハイライトする活性化マップを作成する。
ASVspoof2019データセットを用いてDSVAEから得られた表現を評価した。
実験結果から,未知音声合成器11例中6例と10例の合成音声の検出精度(>98%)が向上した。
また,DSVAEから得られた17種類の音声合成器の表現を可視化し,各合成器からのボナフッ化物および合成音声の解釈・識別を行う。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Transformer-Based Speech Synthesizer Attribution in an Open Set Scenario [16.93803259128475]
音声合成法は、詐欺、偽造、誤情報キャンペーンに使用できる現実的な音声を生成することができる。
法医学的帰属法は、音声信号を生成するために使用される特定の音声合成法を特定する。
学習中に見えない新しい合成器に一般化する音声帰属法を提案する。
論文 参考訳(メタデータ) (2022-10-14T05:55:21Z) - Synthesized Speech Detection Using Convolutional Transformer-Based
Spectrogram Analysis [16.93803259128475]
合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的に使用できる。
本稿では,合成音声検出のためのコンパクト畳み込み変換器を用いて,スペクトル形音声信号の解析を行う。
論文 参考訳(メタデータ) (2022-05-03T22:05:35Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。