論文の概要: Detection of AI Synthesized Hindi Speech
- arxiv url: http://arxiv.org/abs/2203.03706v1
- Date: Mon, 7 Mar 2022 21:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 04:53:17.292458
- Title: Detection of AI Synthesized Hindi Speech
- Title(参考訳): AI合成ヒンディー語音声の検出
- Authors: Karan Bhatia (1), Ansh Agrawal (1), Priyanka Singh (1) and Arun Kumar
Singh (2) ((1) Dhirubhai Ambani Institute of Information and Communication
Technology, (2) Indian Institute of Technology Jammu)
- Abstract要約: そこで本研究では,Hindi音声からAI合成音声を識別する手法を提案する。
我々は、機械学習モデルの識別機能として、Bicoherence Phase、Bicoherence Magnitude、Mel Frequency Cepstral Coefficient (MFCC)、Delta Cepstral、Delta Square Cepstralを利用している。
我々はVGG16で99.83%、自家製のCNNモデルで99.99%の精度を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancements in generative artificial speech models have made
possible the generation of highly realistic speech signals. At first, it seems
exciting to obtain these artificially synthesized signals such as speech clones
or deep fakes but if left unchecked, it may lead us to digital dystopia. One of
the primary focus in audio forensics is validating the authenticity of a
speech. Though some solutions are proposed for English speeches but the
detection of synthetic Hindi speeches have not gained much attention. Here, we
propose an approach for discrimination of AI synthesized Hindi speech from an
actual human speech. We have exploited the Bicoherence Phase, Bicoherence
Magnitude, Mel Frequency Cepstral Coefficient (MFCC), Delta Cepstral, and Delta
Square Cepstral as the discriminating features for machine learning models.
Also, we extend the study to using deep neural networks for extensive
experiments, specifically VGG16 and homemade CNN as the architecture models. We
obtained an accuracy of 99.83% with VGG16 and 99.99% with homemade CNN models.
- Abstract(参考訳): 近年の合成人工音声モデルの発展により,高現実的な音声信号の生成が可能となった。
音声クローンやディープフェイクといった人工的に合成された信号を得ることは、最初はエキサイティングに思えるが、もしチェックされていない場合は、デジタル・ディストピアにつながるかもしれない。
音声法医学における主要な焦点の1つは、音声の真正性を検証することである。
英語の音声に対していくつかの解法が提案されているが、合成ヒンディー語の検出はあまり注目されていない。
本稿では,ai合成ヒンディー語を実際の人間の発話から識別する手法を提案する。
我々は、機械学習モデルの識別機能として、Bicoherence Phase、Bicoherence Magnitude、Mel Frequency Cepstral Coefficient (MFCC)、Delta Cepstral、Delta Square Cepstralを利用している。
また,本研究は深層ニューラルネットワークを用いた大規模実験,特にvgg16と自家製cnnをアーキテクチャモデルとして用いた。
我々はVGG16で99.83%、自家製のCNNモデルで99.99%の精度を得た。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Every Breath You Don't Take: Deepfake Speech Detection Using Breath [6.858439600092057]
ディープフェイク・スピーチは、システムや社会に対する脅威を現実にそして増大させている。
多くの検出器が音声のディープフェイクに対する防御を支援するために作られた。
我々は、音声の高レベル部分である呼吸が自然音声の重要な要素であり、ディープフェイク音声における不適切な生成は、パフォーマンスの差別化要因である、と仮定する。
論文 参考訳(メタデータ) (2024-04-23T15:48:51Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Deep Speech Based End-to-End Automated Speech Recognition (ASR) for
Indian-English Accents [0.0]
インド英語アクセントのエンドツーエンド音声認識システムの開発にトランスファーラーニングアプローチを用いた。
インド英語アクセントのインデックスTSデータは、事前訓練されたディープ音声モデルの転写学習と微調整に使用される。
論文 参考訳(メタデータ) (2022-04-03T03:11:21Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Using Deep Learning Techniques and Inferential Speech Statistics for AI
Synthesised Speech Recognition [0.0]
本研究では、実際の人間の音声から合成音声を識別するのに役立つモデルを提案し、その生成源を同定する。
このモデルは、AI合成音声を実際の人間の音声から1.9%の誤差率で分類し、基礎となるアーキテクチャを97%の精度で検出することで、最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-07-23T18:43:10Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。