論文の概要: Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics
- arxiv url: http://arxiv.org/abs/2009.01934v2
- Date: Sun, 11 Apr 2021 11:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:26:52.120930
- Title: Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics
- Title(参考訳): cepstral & bispectral statisticsを用いたai合成音声の検出
- Authors: Arun Kumar Singh (1), Priyanka Singh (2) ((1) Indian Institute of
Technology Jammu, (2) Dhirubhai Ambani Institute of Information and
Communication Technology)
- Abstract要約: 本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital technology has made possible unimaginable applications come true. It
seems exciting to have a handful of tools for easy editing and manipulation,
but it raises alarming concerns that can propagate as speech clones,
duplicates, or maybe deep fakes. Validating the authenticity of a speech is one
of the primary problems of digital audio forensics. We propose an approach to
distinguish human speech from AI synthesized speech exploiting the Bi-spectral
and Cepstral analysis. Higher-order statistics have less correlation for human
speech in comparison to a synthesized speech. Also, Cepstral analysis revealed
a durable power component in human speech that is missing for a synthesized
speech. We integrate both these analyses and propose a machine learning model
to detect AI synthesized speech.
- Abstract(参考訳): デジタル技術は実現不可能なアプリケーションを実現した。
編集や操作が容易なツールがいくつかあることは、エキサイティングに思えるが、音声クローンや重複、あるいはおそらくは深いフェイクとして伝播する不安が高まる。
音声の真正性を検証することは、デジタルオーディオ法医学の主要な問題の一つである。
本稿では,バイスペクトルとケプストラム分析を利用したAI合成音声とを区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
両分析を統合し,AI合成音声を検出する機械学習モデルを提案する。
関連論文リスト
- Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion [4.251500966181852]
本研究は,8人の有名な人物の実際の音声と,その音声を検索型音声変換を用いて互いに変換する。
エクストリーム・グラディエント・ブースティング・モデルは99.3%の平均的な分類精度を達成でき、音声の1秒あたり0.004ミリ秒のリアルタイムな分類が可能であることが判明した。
論文 参考訳(メタデータ) (2023-08-24T12:26:15Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - DSVAE: Interpretable Disentangled Representation for Synthetic Speech
Detection [25.451749986565375]
合成音声を検出するための音声信号の解釈可能な表現を生成するために,Dis Spectrogram Variational Autoentangle (DSVAE)を提案する。
実験の結果, 未知音声合成者11名中6名中10名中98%が, 高い精度 (>98%) を示した。
論文 参考訳(メタデータ) (2023-04-06T18:37:26Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Simple and Effective Unsupervised Speech Synthesis [97.56065543192699]
簡単なレシピに基づく教師なし音声合成システムを提案する。
本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。
論文 参考訳(メタデータ) (2022-04-06T00:19:13Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Detection of AI Synthesized Hindi Speech [0.0]
そこで本研究では,Hindi音声からAI合成音声を識別する手法を提案する。
我々は、機械学習モデルの識別機能として、Bicoherence Phase、Bicoherence Magnitude、Mel Frequency Cepstral Coefficient (MFCC)、Delta Cepstral、Delta Square Cepstralを利用している。
我々はVGG16で99.83%、自家製のCNNモデルで99.99%の精度を得た。
論文 参考訳(メタデータ) (2022-03-07T21:13:54Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Speech Synthesis as Augmentation for Low-Resource ASR [7.2244067948447075]
音声合成は低リソース音声認識の鍵となるかもしれない。
データ拡張技術は、現代の音声認識トレーニングの重要な部分となっている。
音声合成技術は、人間のような音声を達成するという目標に急速に近づきつつある。
論文 参考訳(メタデータ) (2020-12-23T22:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。