論文の概要: Every Breath You Don't Take: Deepfake Speech Detection Using Breath
- arxiv url: http://arxiv.org/abs/2404.15143v1
- Date: Tue, 23 Apr 2024 15:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:32:19.086874
- Title: Every Breath You Don't Take: Deepfake Speech Detection Using Breath
- Title(参考訳): ディープフェイクで音声を検知する「Breath」(動画あり)
- Authors: Seth Layton, Thiago De Andrade, Daniel Olszewski, Kevin Warren, Carrie Gates, Kevin Butler, Patrick Traynor,
- Abstract要約: ディープフェイク・スピーチは、システムや社会に対する脅威を現実にそして増大させている。
多くの検出器が音声のディープフェイクに対する防御を支援するために作られた。
我々は、音声の高レベル部分である呼吸が自然音声の重要な要素であり、ディープフェイク音声における不適切な生成は、パフォーマンスの差別化要因である、と仮定する。
- 参考スコア(独自算出の注目度): 6.530940863974742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake speech represents a real and growing threat to systems and society. Many detectors have been created to aid in defense against speech deepfakes. While these detectors implement myriad methodologies, many rely on low-level fragments of the speech generation process. We hypothesize that breath, a higher-level part of speech, is a key component of natural speech and thus improper generation in deepfake speech is a performant discriminator. To evaluate this, we create a breath detector and leverage this against a custom dataset of online news article audio to discriminate between real/deepfake speech. Additionally, we make this custom dataset publicly available to facilitate comparison for future work. Applying our simple breath detector as a deepfake speech discriminator on in-the-wild samples allows for accurate classification (perfect 1.0 AUPRC and 0.0 EER on test data) across 33.6 hours of audio. We compare our model with the state-of-the-art SSL-wav2vec model and show that this complex deep learning model completely fails to classify the same in-the-wild samples (0.72 AUPRC and 0.99 EER).
- Abstract(参考訳): ディープフェイク・スピーチは、システムや社会に対する脅威を現実にそして増大させている。
多くの検出器が音声のディープフェイクに対する防御を支援するために作られた。
これらの検出器は無数の手法を実装しているが、多くは音声生成プロセスの低レベルフラグメントに依存している。
我々は、音声の高レベル部分である呼吸が自然音声の重要な要素であり、ディープフェイク音声における不適切な生成は、パフォーマンスの差別化要因である、と仮定する。
これを評価するために、呼吸検知器を作成し、これをオンラインニュース記事音声のカスタムデータセットと比較し、実・深層音声の識別を行う。
さらに、このカスタムデータセットを公開して、将来の作業の比較を容易にする。
我々の単純な呼吸検知器を深呼吸音声識別装置として、ミリ波サンプルに適用することで、33.6時間にわたる正確な分類(テストデータでは1.0 AUPRC、0.0 EER)が可能になる。
我々は、最先端のSSL-wav2vecモデルと比較し、この複雑なディープラーニングモデルが、同じ組込みサンプル(0.72 AUPRCと0.99 EER)の分類に完全に失敗していることを示す。
関連論文リスト
- SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - FairSSD: Understanding Bias in Synthetic Speech Detectors [15.548402598331275]
既存の音声検出装置のバイアスを調べ、特定の性別、年齢、アクセントグループを不公平にターゲットするかどうかを判定する。
0.9万以上の音声信号を用いた6つの既存の合成音声検出器の実験では、ほとんどの検出器は性別、年齢、アクセントに偏っていることが示されている。
論文 参考訳(メタデータ) (2024-04-17T01:53:03Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion [4.251500966181852]
本研究は,8人の有名な人物の実際の音声と,その音声を検索型音声変換を用いて互いに変換する。
エクストリーム・グラディエント・ブースティング・モデルは99.3%の平均的な分類精度を達成でき、音声の1秒あたり0.004ミリ秒のリアルタイムな分類が可能であることが判明した。
論文 参考訳(メタデータ) (2023-08-24T12:26:15Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - Detection of AI Synthesized Hindi Speech [0.0]
そこで本研究では,Hindi音声からAI合成音声を識別する手法を提案する。
我々は、機械学習モデルの識別機能として、Bicoherence Phase、Bicoherence Magnitude、Mel Frequency Cepstral Coefficient (MFCC)、Delta Cepstral、Delta Square Cepstralを利用している。
我々はVGG16で99.83%、自家製のCNNモデルで99.99%の精度を得た。
論文 参考訳(メタデータ) (2022-03-07T21:13:54Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。