論文の概要: ArFake: A Multi-Dialect Benchmark and Baselines for Arabic Spoof-Speech Detection
- arxiv url: http://arxiv.org/abs/2509.22808v1
- Date: Fri, 26 Sep 2025 18:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.883729
- Title: ArFake: A Multi-Dialect Benchmark and Baselines for Arabic Spoof-Speech Detection
- Title(参考訳): ArFake: アラビア音声検出のための多次元ベンチマークとベースライン
- Authors: Mohamed Maged, Alhassan Ehab, Ali Mekky, Besher Hassan, Shady Shehata,
- Abstract要約: アラビア語スプーフ音声データセットを初めて紹介する。
以上の結果から,FishSpeechはカサブランカコーパスのアラビア語音声クローニングにおいて,他のTSモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 2.5962590697722447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of generative text-to-speech models, distinguishing between real and synthetic speech has become challenging, especially for Arabic that have received limited research attention. Most spoof detection efforts have focused on English, leaving a significant gap for Arabic and its many dialects. In this work, we introduce the first multi-dialect Arabic spoofed speech dataset. To evaluate the difficulty of the synthesized audio from each model and determine which produces the most challenging samples, we aimed to guide the construction of our final dataset either by merging audios from multiple models or by selecting the best-performing model, we conducted an evaluation pipeline that included training classifiers using two approaches: modern embedding-based methods combined with classifier heads; classical machine learning algorithms applied to MFCC features; and the RawNet2 architecture. The pipeline further incorporated the calculation of Mean Opinion Score based on human ratings, as well as processing both original and synthesized datasets through an Automatic Speech Recognition model to measure the Word Error Rate. Our results demonstrate that FishSpeech outperforms other TTS models in Arabic voice cloning on the Casablanca corpus, producing more realistic and challenging synthetic speech samples. However, relying on a single TTS for dataset creation may limit generalizability.
- Abstract(参考訳): 生成的テキスト音声モデルの台頭により、実際の音声と合成音声の区別が困難になり、特に研究の関心が限られたアラビア人にとっては困難になっている。
ほとんどのスプーフ検出は英語に重点を置いており、アラビア語とその多くの方言に大きなギャップを残している。
本研究では,アラビア語スプーフ音声データセットを初めて紹介する。
各モデルからの合成音声の難易度を評価し,最も困難なサンプルを生成するかを決定するため,複数のモデルからオーディオをマージするか,最高の性能モデルを選択することによって最終データセットの構築をガイドすることを目的とした。
パイプラインはさらに、人間のレーティングに基づいた平均オピニオンスコアの計算、およびワードエラー率を測定するために、自動音声認識モデルを通じて、オリジナルのデータセットと合成データセットの両方を処理した。
以上の結果から,FishSpeechはカサブランカコーパスのアラビア音声クローニングにおいて他のTSモデルよりも優れており,より現実的で難しい合成音声サンプルが得られた。
しかし、データセット生成に単一のTSに頼ることで、一般化性が制限される可能性がある。
関連論文リスト
- LLM-to-Speech: A Synthetic Data Pipeline for Training Dialectal Text-to-Speech Models [0.0]
我々はNileTTSについて紹介する: 多様なドメインにわたる2人の話者による38時間の音声の書き起こしを行う。
大型言語モデル (LLM) はエジプトのアラビア語コンテンツを生成し、音声合成ツールを用いて自然言語に変換する。
我々は、そのデータセットに基づいて、最先端の多言語TSモデルであるXTTS v2を微調整し、他のアラビア方言で訓練されたベースラインモデルに対して評価する。
論文 参考訳(メタデータ) (2026-02-17T15:58:27Z) - UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Hybrid Deep Learning and Signal Processing for Arabic Dialect Recognition in Low-Resource Settings [0.0]
アラビア語の方言認識は、アラビア語の言語的多様性と大きな注釈付きデータセットの不足により、大きな課題を呈している。
本研究では,古典的な信号処理技術とディープラーニングアーキテクチャを融合したハイブリッドモデリング戦略について検討する。
論文 参考訳(メタデータ) (2025-06-26T15:36:25Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。