論文の概要: HISPASpoof: A New Dataset For Spanish Speech Forensics
- arxiv url: http://arxiv.org/abs/2509.09155v1
- Date: Thu, 11 Sep 2025 05:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.237744
- Title: HISPASpoof: A New Dataset For Spanish Speech Forensics
- Title(参考訳): HISPASpoof:スペイン語の音声鑑定のための新しいデータセット
- Authors: Maria Risques, Kratika Bhagtani, Amit Kumar Singh Yadav, Edward J. Delp,
- Abstract要約: HISPASpoofは、合成音声の検出と帰属のために設計された最初の大規模なスペイン語データセットである。
これには、6つのアクセントにまたがる公のコーパスからの実際の音声と、6つのゼロショットTSシステムで生成された合成音声が含まれる。
5つの代表的手法を評価し,英語で訓練された検出器がスペイン語に一般化できないことを示す。
- 参考スコア(独自算出の注目度): 11.197805021913567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot Voice Cloning (VC) and Text-to-Speech (TTS) methods have advanced rapidly, enabling the generation of highly realistic synthetic speech and raising serious concerns about their misuse. While numerous detectors have been developed for English and Chinese, Spanish-spoken by over 600 million people worldwide-remains underrepresented in speech forensics. To address this gap, we introduce HISPASpoof, the first large-scale Spanish dataset designed for synthetic speech detection and attribution. It includes real speech from public corpora across six accents and synthetic speech generated with six zero-shot TTS systems. We evaluate five representative methods, showing that detectors trained on English fail to generalize to Spanish, while training on HISPASpoof substantially improves detection. We also evaluate synthetic speech attribution performance on HISPASpoof, i.e., identifying the generation method of synthetic speech. HISPASpoof thus provides a critical benchmark for advancing reliable and inclusive speech forensics in Spanish.
- Abstract(参考訳): Zero-shot Voice Cloning (VC) と Text-to-Speech (TTS) の手法は急速に進歩し、高度にリアルな合成音声が生成され、その誤用に対する深刻な懸念が高まっている。
英語と中国語で多くの検知器が開発されているが、世界中の6億人の人々がスペインで発見している。
このギャップに対処するため,HISPASpoofは,合成音声の検出と帰属のために設計された,スペイン初の大規模データセットである。
これには、6つのアクセントにまたがる公のコーパスからの実際の音声と、6つのゼロショットTSシステムで生成された合成音声が含まれる。
その結果,HISPASpoofのトレーニングは検出を大幅に改善する一方で,英語で訓練した検出器がスペイン語に一般化できないことを示す。
また,HISPASpoofにおける合成音声の属性特性,すなわち合成音声の生成方法の同定についても検討した。
したがって、HISPASpoofはスペイン語の信頼性と包括的音声法医学を進化させるための重要なベンチマークを提供する。
関連論文リスト
- SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought [12.54786997634534]
本研究は,S2STのための単一言語モデルであるSeamlessExpressiveLMを提案する。
我々は、複雑なソースからターゲットへの音声マッピングを、チェーン・オブ・シークレット・プロンプトで中間生成ステップに分解する。
モデルはまずターゲットのセマンティックコンテンツを翻訳し、次に話者スタイルをマルチストリーム音響ユニットに転送する。
論文 参考訳(メタデータ) (2024-05-30T18:28:31Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - FairSSD: Understanding Bias in Synthetic Speech Detectors [15.548402598331275]
既存の音声検出装置のバイアスを調べ、特定の性別、年齢、アクセントグループを不公平にターゲットするかどうかを判定する。
0.9万以上の音声信号を用いた6つの既存の合成音声検出器の実験では、ほとんどの検出器は性別、年齢、アクセントに偏っていることが示されている。
論文 参考訳(メタデータ) (2024-04-17T01:53:03Z) - Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer
Learning [3.5032870024762386]
本稿では,Fastpitch text-to-speech(TTS)モデルを用いて,高品質な合成子音声を生成する手法を提案する。
このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。
実子声と合成子声の間に有意な相関が認められた客観的評価を行った。
論文 参考訳(メタデータ) (2023-11-07T19:31:44Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - Improving Cross-lingual Speech Synthesis with Triplet Training Scheme [5.470211567548067]
言語間の発音を高めるために, トリプルト学習法を提案する。
提案手法は、合成した言語間音声の可知性と自然性の両方に顕著な改善をもたらす。
論文 参考訳(メタデータ) (2022-02-22T08:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。