論文の概要: ArFake: A Multi-Dialect Benchmark and Baselines for Arabic Spoof-Speech Detection
- arxiv url: http://arxiv.org/abs/2509.22808v1
- Date: Fri, 26 Sep 2025 18:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.883729
- Title: ArFake: A Multi-Dialect Benchmark and Baselines for Arabic Spoof-Speech Detection
- Title(参考訳): ArFake: アラビア音声検出のための多次元ベンチマークとベースライン
- Authors: Mohamed Maged, Alhassan Ehab, Ali Mekky, Besher Hassan, Shady Shehata,
- Abstract要約: アラビア語スプーフ音声データセットを初めて紹介する。
以上の結果から,FishSpeechはカサブランカコーパスのアラビア語音声クローニングにおいて,他のTSモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 2.5962590697722447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of generative text-to-speech models, distinguishing between real and synthetic speech has become challenging, especially for Arabic that have received limited research attention. Most spoof detection efforts have focused on English, leaving a significant gap for Arabic and its many dialects. In this work, we introduce the first multi-dialect Arabic spoofed speech dataset. To evaluate the difficulty of the synthesized audio from each model and determine which produces the most challenging samples, we aimed to guide the construction of our final dataset either by merging audios from multiple models or by selecting the best-performing model, we conducted an evaluation pipeline that included training classifiers using two approaches: modern embedding-based methods combined with classifier heads; classical machine learning algorithms applied to MFCC features; and the RawNet2 architecture. The pipeline further incorporated the calculation of Mean Opinion Score based on human ratings, as well as processing both original and synthesized datasets through an Automatic Speech Recognition model to measure the Word Error Rate. Our results demonstrate that FishSpeech outperforms other TTS models in Arabic voice cloning on the Casablanca corpus, producing more realistic and challenging synthetic speech samples. However, relying on a single TTS for dataset creation may limit generalizability.
- Abstract(参考訳): 生成的テキスト音声モデルの台頭により、実際の音声と合成音声の区別が困難になり、特に研究の関心が限られたアラビア人にとっては困難になっている。
ほとんどのスプーフ検出は英語に重点を置いており、アラビア語とその多くの方言に大きなギャップを残している。
本研究では,アラビア語スプーフ音声データセットを初めて紹介する。
各モデルからの合成音声の難易度を評価し,最も困難なサンプルを生成するかを決定するため,複数のモデルからオーディオをマージするか,最高の性能モデルを選択することによって最終データセットの構築をガイドすることを目的とした。
パイプラインはさらに、人間のレーティングに基づいた平均オピニオンスコアの計算、およびワードエラー率を測定するために、自動音声認識モデルを通じて、オリジナルのデータセットと合成データセットの両方を処理した。
以上の結果から,FishSpeechはカサブランカコーパスのアラビア音声クローニングにおいて他のTSモデルよりも優れており,より現実的で難しい合成音声サンプルが得られた。
しかし、データセット生成に単一のTSに頼ることで、一般化性が制限される可能性がある。
関連論文リスト
- Hybrid Deep Learning and Signal Processing for Arabic Dialect Recognition in Low-Resource Settings [0.0]
アラビア語の方言認識は、アラビア語の言語的多様性と大きな注釈付きデータセットの不足により、大きな課題を呈している。
本研究では,古典的な信号処理技術とディープラーニングアーキテクチャを融合したハイブリッドモデリング戦略について検討する。
論文 参考訳(メタデータ) (2025-06-26T15:36:25Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。