論文の概要: Single and Multi-Speaker Cloned Voice Detection: From Perceptual to
Learned Features
- arxiv url: http://arxiv.org/abs/2307.07683v1
- Date: Sat, 15 Jul 2023 02:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 18:25:54.537712
- Title: Single and Multi-Speaker Cloned Voice Detection: From Perceptual to
Learned Features
- Title(参考訳): シングルスピーカとマルチスピーカによる音声検出:知覚から学習まで
- Authors: Sarah Barrington, Romit Barua, Gautham Koorma, Hany Farid
- Abstract要約: 合成音声クローニング技術は近年顕著な進歩を遂げており、潜在的な害を生じさせている。
特定人物の身振りを意図したクローン音声と現実を区別する3つの手法について述べる。
一つの話者の音声で訓練し,複数の声で訓練した場合には,これらのアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 13.22881513648254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic-voice cloning technologies have seen significant advances in recent
years, giving rise to a range of potential harms. From small- and large-scale
financial fraud to disinformation campaigns, the need for reliable methods to
differentiate real and synthesized voices is imperative. We describe three
techniques for differentiating a real from a cloned voice designed to
impersonate a specific person. These three approaches differ in their feature
extraction stage with low-dimensional perceptual features offering high
interpretability but lower accuracy, to generic spectral features, and
end-to-end learned features offering less interpretability but higher accuracy.
We show the efficacy of these approaches when trained on a single speaker's
voice and when trained on multiple voices. The learned features consistently
yield an equal error rate between $0\%$ and $4\%$, and are reasonably robust to
adversarial laundering.
- Abstract(参考訳): 合成音声クローニング技術は近年顕著な進歩を遂げており、潜在的な害をもたらす可能性がある。
小規模で大規模な金融詐欺から偽情報キャンペーンまで、実声と合成音声を区別するための信頼性の高い方法の必要性は不可欠である。
特定人物の身振りを意図したクローン音声と現実を区別する3つの手法について述べる。
これらの3つのアプローチは特徴抽出段階において、高い解釈性を提供する低次元の知覚的特徴と、一般的なスペクトル特徴、より少ない解釈性を提供するエンドツーエンド学習特徴との相違がある。
一つの話者の音声で訓練し,複数の声で訓練した場合には,これらのアプローチの有効性を示す。
学習した特徴は、常に$0\%$から$4\%$の間で等しいエラー率をもたらし、敵の洗浄に対して合理的に堅牢である。
関連論文リスト
- Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy? [12.662031101992968]
合成および実世界の両方のデータセットにおける認識精度に対する多重モーダル性の影響について検討する。
音声認識のための補足的モダリティとしてのイメージは、中等度雑音レベルにおいて最大の利益をもたらす。
最も関連性の高い視覚情報が前処理ステップとしてフィルタリングされる場合、合成データセットと実世界のデータセットの両方のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-09-13T22:18:45Z) - HiddenSpeaker: Generate Imperceptible Unlearnable Audios for Speaker Verification System [0.9591674293850556]
学習音声サンプルに知覚不能な摂動を埋め込んだHiddenSpeakerというフレームワークを提案する。
以上の結果から,HiddenSpeakerは学習不可能なサンプルでモデルを騙すだけでなく,摂動の知覚能力を高めることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T15:49:00Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Improving Fairness in Speaker Recognition [4.94706680113206]
最先端の深層話者認識システムによって達成される性能の格差を調査します。
統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
論文 参考訳(メタデータ) (2021-04-29T01:08:53Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Self-Supervised Learning from Contrastive Mixtures for Personalized
Speech Enhancement [19.645016575334786]
この研究は、話者固有の特徴を発見するために、自己教師付き学習を普遍的に利用する方法を探求する。
ノイズの多いデータをその場しのぎの訓練対象として扱う,単純なコントラスト学習手法を開発した。
論文 参考訳(メタデータ) (2020-11-06T15:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。