論文の概要: Transformer-Based Speech Synthesizer Attribution in an Open Set Scenario
- arxiv url: http://arxiv.org/abs/2210.07546v1
- Date: Fri, 14 Oct 2022 05:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 18:23:24.157481
- Title: Transformer-Based Speech Synthesizer Attribution in an Open Set Scenario
- Title(参考訳): 開放シナリオにおけるトランスフォーマーベース音声合成器の寄与
- Authors: Emily R. Bartusiak, Edward J. Delp
- Abstract要約: 音声合成法は、詐欺、偽造、誤情報キャンペーンに使用できる現実的な音声を生成することができる。
法医学的帰属法は、音声信号を生成するために使用される特定の音声合成法を特定する。
学習中に見えない新しい合成器に一般化する音声帰属法を提案する。
- 参考スコア(独自算出の注目度): 16.93803259128475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech synthesis methods can create realistic-sounding speech, which may be
used for fraud, spoofing, and misinformation campaigns. Forensic methods that
detect synthesized speech are important for protection against such attacks.
Forensic attribution methods provide even more information about the nature of
synthesized speech signals because they identify the specific speech synthesis
method (i.e., speech synthesizer) used to create a speech signal. Due to the
increasing number of realistic-sounding speech synthesizers, we propose a
speech attribution method that generalizes to new synthesizers not seen during
training. To do so, we investigate speech synthesizer attribution in both a
closed set scenario and an open set scenario. In other words, we consider some
speech synthesizers to be "known" synthesizers (i.e., part of the closed set)
and others to be "unknown" synthesizers (i.e., part of the open set). We
represent speech signals as spectrograms and train our proposed method, known
as compact attribution transformer (CAT), on the closed set for multi-class
classification. Then, we extend our analysis to the open set to attribute
synthesized speech signals to both known and unknown synthesizers. We utilize a
t-distributed stochastic neighbor embedding (tSNE) on the latent space of the
trained CAT to differentiate between each unknown synthesizer. Additionally, we
explore poly-1 loss formulations to improve attribution results. Our proposed
approach successfully attributes synthesized speech signals to their respective
speech synthesizers in both closed and open set scenarios.
- Abstract(参考訳): 音声合成法は、詐欺、偽造、誤情報キャンペーンに使用できる現実的な音声を生成することができる。
このような攻撃に対して,合成音声を検出する法医学的手法が重要である。
法医学的帰属法は、音声信号の作成に用いられる特定の音声合成法(すなわち音声合成法)を識別するため、合成音声信号の性質についてさらに多くの情報を提供する。
現実的な音声合成器の増加に伴い,学習中に見えない新しい合成器に一般化する音声帰属法を提案する。
そこで我々は,閉集合シナリオと開集合シナリオの両方における音声合成者の属性について検討する。
言い換えれば、一部の音声合成器は「既知の」合成器(すなわち閉集合の一部)であり、他のものは「知られていない」合成器(すなわち開集合の一部)であると考える。
音声信号をスペクトログラムとして表現し、マルチクラス分類のための閉集合上にコンパクト属性変換器(CAT)と呼ばれる提案手法を訓練する。
そして、その分析結果をオープンセットに拡張し、合成音声信号を未知の合成器の両方に属性付ける。
学習した猫の潜在空間にt-distributed stochastic neighbor embedded (tsne) を用いて,未知の合成器を識別する。
さらに,ポリ-1損失の定式化について検討した。
提案手法は,各音声合成者に対して,クローズド・オープン両方のシナリオにおいて,合成音声信号の属性付けに成功している。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - DSVAE: Interpretable Disentangled Representation for Synthetic Speech
Detection [25.451749986565375]
合成音声を検出するための音声信号の解釈可能な表現を生成するために,Dis Spectrogram Variational Autoentangle (DSVAE)を提案する。
実験の結果, 未知音声合成者11名中6名中10名中98%が, 高い精度 (>98%) を示した。
論文 参考訳(メタデータ) (2023-04-06T18:37:26Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Synthesized Speech Detection Using Convolutional Transformer-Based
Spectrogram Analysis [16.93803259128475]
合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的に使用できる。
本稿では,合成音声検出のためのコンパクト畳み込み変換器を用いて,スペクトル形音声信号の解析を行う。
論文 参考訳(メタデータ) (2022-05-03T22:05:35Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。