論文の概要: FairSSD: Understanding Bias in Synthetic Speech Detectors
- arxiv url: http://arxiv.org/abs/2404.10989v1
- Date: Wed, 17 Apr 2024 01:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:34:07.586720
- Title: FairSSD: Understanding Bias in Synthetic Speech Detectors
- Title(参考訳): FairSSD:合成音声検出器におけるバイアスの理解
- Authors: Amit Kumar Singh Yadav, Kratika Bhagtani, Davide Salvi, Paolo Bestagini, Edward J. Delp,
- Abstract要約: 既存の音声検出装置のバイアスを調べ、特定の性別、年齢、アクセントグループを不公平にターゲットするかどうかを判定する。
0.9万以上の音声信号を用いた6つの既存の合成音声検出器の実験では、ほとんどの検出器は性別、年齢、アクセントに偏っていることが示されている。
- 参考スコア(独自算出の注目度): 15.548402598331275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods that can generate synthetic speech which is perceptually indistinguishable from speech recorded by a human speaker, are easily available. Several incidents report misuse of synthetic speech generated from these methods to commit fraud. To counter such misuse, many methods have been proposed to detect synthetic speech. Some of these detectors are more interpretable, can generalize to detect synthetic speech in the wild and are robust to noise. However, limited work has been done on understanding bias in these detectors. In this work, we examine bias in existing synthetic speech detectors to determine if they will unfairly target a particular gender, age and accent group. We also inspect whether these detectors will have a higher misclassification rate for bona fide speech from speech-impaired speakers w.r.t fluent speakers. Extensive experiments on 6 existing synthetic speech detectors using more than 0.9 million speech signals demonstrate that most detectors are gender, age and accent biased, and future work is needed to ensure fairness. To support future research, we release our evaluation dataset, models used in our study and source code at https://gitlab.com/viper-purdue/fairssd.
- Abstract(参考訳): 人間の話者が録音した音声と知覚的に区別できない合成音声を生成する方法が容易に利用可能である。
いくつかの事件は、これらの手法から生成された合成音声の誤用を報告し、詐欺を犯した。
このような誤用に対抗するため、合成音声を検出するために多くの方法が提案されている。
これらの検出器のいくつかはより解釈可能であり、野生での合成音声の検出を一般化することができ、ノイズに対して堅牢である。
しかし、これらの検出器のバイアスを理解するための限られた研究がなされている。
本研究では,既存の音声検出装置の偏りを調べ,特定の性別,年齢,アクセント群を不当に対象とするかどうかを判定する。
また、これらの検出器が、音声不自由話者w.r.t流音話者からのボナファイド音声の誤分類率が高いかどうかについても検討する。
0.9百万以上の音声信号を用いた6つの既存の音声検出装置の大規模な実験は、ほとんどの検出器が性別、年齢、アクセントに偏りがあり、公正性を確保するためには将来の作業が必要であることを示している。
今後の研究を支援するため、評価データセット、研究で使用されるモデル、ソースコードをhttps://gitlab.com/viper-purdue/fairssdで公開します。
関連論文リスト
- DiffSSD: A Diffusion-Based Dataset For Speech Forensics [15.919164272315227]
拡散型音声生成装置はユビキタスであり, 高品質な合成音声を生成することができる。
このような誤用に対抗するため、合成音声検出器が開発された。
これらの検出器の多くは拡散ベースのシンセサイザーを含まないデータセットで訓練されている。
論文 参考訳(メタデータ) (2024-09-19T18:55:13Z) - Every Breath You Don't Take: Deepfake Speech Detection Using Breath [6.858439600092057]
ディープフェイク・スピーチは、システムや社会に対する脅威を現実にそして増大させている。
多くの検出器が音声のディープフェイクに対する防御を支援するために作られた。
我々は、音声の高レベル部分である呼吸が自然音声の重要な要素であり、ディープフェイク音声における不適切な生成は、パフォーマンスの差別化要因である、と仮定する。
論文 参考訳(メタデータ) (2024-04-23T15:48:51Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。