論文の概要: Using Deep Learning Techniques and Inferential Speech Statistics for AI
Synthesised Speech Recognition
- arxiv url: http://arxiv.org/abs/2107.11412v1
- Date: Fri, 23 Jul 2021 18:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 15:47:06.910693
- Title: Using Deep Learning Techniques and Inferential Speech Statistics for AI
Synthesised Speech Recognition
- Title(参考訳): 深層学習技術と推論音声統計を用いたAI合成音声認識
- Authors: Arun Kumar Singh (1), Priyanka Singh (2), Karan Nathwani (1) ((1)
Indian Institute of Technology Jammu, (2) Dhirubhai Ambani Institute of
Information and Communication Technology)
- Abstract要約: 本研究では、実際の人間の音声から合成音声を識別するのに役立つモデルを提案し、その生成源を同定する。
このモデルは、AI合成音声を実際の人間の音声から1.9%の誤差率で分類し、基礎となるアーキテクチャを97%の精度で検出することで、最先端のアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent developments in technology have re-warded us with amazing audio
synthesis models like TACOTRON and WAVENETS. On the other side, it poses
greater threats such as speech clones and deep fakes, that may go undetected.
To tackle these alarming situations, there is an urgent need to propose models
that can help discriminate a synthesized speech from an actual human speech and
also identify the source of such a synthesis. Here, we propose a model based on
Convolutional Neural Network (CNN) and Bidirectional Recurrent Neural Network
(BiRNN) that helps to achieve both the aforementioned objectives. The temporal
dependencies present in AI synthesized speech are exploited using Bidirectional
RNN and CNN. The model outperforms the state-of-the-art approaches by
classifying the AI synthesized audio from real human speech with an error rate
of 1.9% and detecting the underlying architecture with an accuracy of 97%.
- Abstract(参考訳): 最近の技術開発は、TACOTRONやWAVENETSのような素晴らしいオーディオ合成モデルで私たちを再び巻き込んだ。
他方では、音声クローンやディープフェイクといった、検出されない可能性のある大きな脅威を引き起こす。
このような危機的状況に対処するためには、合成音声と実際の人間の音声を区別し、その合成の源を識別するためのモデルを提案する必要がある。
本稿では、上記両方の目的を達成するために、畳み込みニューラルネットワーク(CNN)と双方向リカレントニューラルネットワーク(Bi direction Recurrent Neural Network)に基づくモデルを提案する。
AI合成音声における時間依存性を双方向RNNとCNNを用いて活用する。
このモデルは、AI合成音声を実際の人間の音声から1.9%の誤差率で分類し、基礎となるアーキテクチャを97%の精度で検出することで、最先端のアプローチよりも優れている。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion [4.251500966181852]
本研究は,8人の有名な人物の実際の音声と,その音声を検索型音声変換を用いて互いに変換する。
エクストリーム・グラディエント・ブースティング・モデルは99.3%の平均的な分類精度を達成でき、音声の1秒あたり0.004ミリ秒のリアルタイムな分類が可能であることが判明した。
論文 参考訳(メタデータ) (2023-08-24T12:26:15Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Speech Synthesis as Augmentation for Low-Resource ASR [7.2244067948447075]
音声合成は低リソース音声認識の鍵となるかもしれない。
データ拡張技術は、現代の音声認識トレーニングの重要な部分となっている。
音声合成技術は、人間のような音声を達成するという目標に急速に近づきつつある。
論文 参考訳(メタデータ) (2020-12-23T22:19:42Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。