論文の概要: Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs
- arxiv url: http://arxiv.org/abs/2309.08146v1
- Date: Fri, 15 Sep 2023 04:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:04:17.391091
- Title: Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs
- Title(参考訳): Syn-Att: 半教師付き未知のCNNアンサンブルによる合成音声属性
- Authors: Md Awsafur Rahman, Bishmoy Paul, Najibul Haque Sarker, Zaber Ibn Abdul
Hakim, Shaikh Anowarul Fattah, Mohammad Saquib
- Abstract要約: 合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
- 参考スコア(独自算出の注目度): 1.262949092134022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the huge technological advances introduced by deep learning in audio &
speech processing, many novel synthetic speech techniques achieved incredible
realistic results. As these methods generate realistic fake human voices, they
can be used in malicious acts such as people imitation, fake news, spreading,
spoofing, media manipulations, etc. Hence, the ability to detect synthetic or
natural speech has become an urgent necessity. Moreover, being able to tell
which algorithm has been used to generate a synthetic speech track can be of
preeminent importance to track down the culprit. In this paper, a novel
strategy is proposed to attribute a synthetic speech track to the generator
that is used to synthesize it. The proposed detector transforms the audio into
log-mel spectrogram, extracts features using CNN, and classifies it between
five known and unknown algorithms, utilizing semi-supervision and ensemble to
improve its robustness and generalizability significantly. The proposed
detector is validated on two evaluation datasets consisting of a total of
18,000 weakly perturbed (Eval 1) & 10,000 strongly perturbed (Eval 2) synthetic
speeches. The proposed method outperforms other top teams in accuracy by 12-13%
on Eval 2 and 1-2% on Eval 1, in the IEEE SP Cup challenge at ICASSP 2022.
- Abstract(参考訳): 音声および音声処理における深層学習による大きな技術進歩により、多くの新しい合成音声技術は驚くほど現実的な結果を得た。
これらの手法は、現実的な偽の人間の声を生成するため、擬人化、偽ニュース、拡散、偽造、メディア操作などの悪意ある行為に使用できる。
したがって、合成音声や自然な音声を検出する能力は、必要不可欠なものとなっている。
さらに、合成音声トラックを生成するためにどのアルゴリズムが使われたかを知ることは、犯人を追跡する上で極めて重要である。
本稿では,合成音声トラックを合成に使用する生成器に分類する新しい手法を提案する。
提案する検出器は、音声をログメルスペクトログラムに変換し、cnnを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムに分類し、半スーパービジョンとアンサンブルを用いて頑健さと一般化性を大幅に改善する。
提案する検出器は,合計18,000個の弱摂動(eval)からなる2つの評価データセット上で検証される。
1)及び10,000の強い摂動(Eval)
2)合成音声
提案手法は、ICASSP 2022のIEEE SP Cupチャレンジにおいて、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - FairSSD: Understanding Bias in Synthetic Speech Detectors [15.548402598331275]
既存の音声検出装置のバイアスを調べ、特定の性別、年齢、アクセントグループを不公平にターゲットするかどうかを判定する。
0.9万以上の音声信号を用いた6つの既存の合成音声検出器の実験では、ほとんどの検出器は性別、年齢、アクセントに偏っていることが示されている。
論文 参考訳(メタデータ) (2024-04-17T01:53:03Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - DSVAE: Interpretable Disentangled Representation for Synthetic Speech
Detection [25.451749986565375]
合成音声を検出するための音声信号の解釈可能な表現を生成するために,Dis Spectrogram Variational Autoentangle (DSVAE)を提案する。
実験の結果, 未知音声合成者11名中6名中10名中98%が, 高い精度 (>98%) を示した。
論文 参考訳(メタデータ) (2023-04-06T18:37:26Z) - Transformer-Based Speech Synthesizer Attribution in an Open Set Scenario [16.93803259128475]
音声合成法は、詐欺、偽造、誤情報キャンペーンに使用できる現実的な音声を生成することができる。
法医学的帰属法は、音声信号を生成するために使用される特定の音声合成法を特定する。
学習中に見えない新しい合成器に一般化する音声帰属法を提案する。
論文 参考訳(メタデータ) (2022-10-14T05:55:21Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Using Deep Learning Techniques and Inferential Speech Statistics for AI
Synthesised Speech Recognition [0.0]
本研究では、実際の人間の音声から合成音声を識別するのに役立つモデルを提案し、その生成源を同定する。
このモデルは、AI合成音声を実際の人間の音声から1.9%の誤差率で分類し、基礎となるアーキテクチャを97%の精度で検出することで、最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-07-23T18:43:10Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。