論文の概要: Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection
- arxiv url: http://arxiv.org/abs/2210.17222v1
- Date: Mon, 31 Oct 2022 11:03:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:49:02.721197
- Title: Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection
- Title(参考訳): 合成音声検出のための話者自動検証と韻律解析の併用
- Authors: Luigi Attorresi, Davide Salvi, Clara Borrelli, Paolo Bestagini,
Stefano Tubaro
- Abstract要約: 本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
- 参考スコア(独自算出の注目度): 15.884911752869437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid spread of media content synthesis technology and the potentially
damaging impact of audio and video deepfakes on people's lives have raised the
need to implement systems able to detect these forgeries automatically. In this
work we present a novel approach for synthetic speech detection, exploiting the
combination of two high-level semantic properties of the human voice. On one
side, we focus on speaker identity cues and represent them as speaker
embeddings extracted using a state-of-the-art method for the automatic speaker
verification task. On the other side, voice prosody, intended as variations in
rhythm, pitch or accent in speech, is extracted through a specialized encoder.
We show that the combination of these two embeddings fed to a supervised binary
classifier allows the detection of deepfake speech generated with both
Text-to-Speech and Voice Conversion techniques. Our results show improvements
over the considered baselines, good generalization properties over multiple
datasets and robustness to audio compression.
- Abstract(参考訳): メディアコンテンツ合成技術の急速な普及と、オーディオやビデオのディープフェイクによる人々の生活への影響により、これらの偽造を自動検出できるシステムを実装する必要性が高まっている。
本研究では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、音声のリズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
教師付きバイナリ分類器に供給されるこれら2つの埋め込みの組み合わせにより,音声変換技術と音声変換技術の両方で生成されたディープフェイク音声の検出が可能となる。
以上の結果から,ベースラインに対する改善,複数のデータセットに対する優れた一般化特性,音声圧縮に対する堅牢性が示された。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Speaker Anonymization with Phonetic Intermediate Representations [22.84840887071428]
本稿では,話者の匿名化パイプラインを提案する。
中間表現として電話を用いると、入力から話者識別情報のほぼ完全な除去が保証される。
論文 参考訳(メタデータ) (2022-07-11T13:02:08Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis [13.676243543864347]
本稿では,高品質な音声を生成できるエンドツーエンド手法を提案する。
この方法は、最先端のTDNNベースのECAPA-TDNNに基づく話者エンコーダ、FastSpeech2ベースのシンセサイザー、HiFi-GANボコーダの3つの別々に訓練されたコンポーネントで構成されている。
論文 参考訳(メタデータ) (2022-03-20T07:04:26Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。