論文の概要: Voice Conversion Improves Cross-Domain Robustness for Spoken Arabic Dialect Identification
- arxiv url: http://arxiv.org/abs/2505.24713v1
- Date: Fri, 30 May 2025 15:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.039677
- Title: Voice Conversion Improves Cross-Domain Robustness for Spoken Arabic Dialect Identification
- Title(参考訳): 音声変換によるアラビア方言識別のためのクロスドメインロバスト性の改善
- Authors: Badr M. Abdullah, Matthew Baas, Bernd Möbius, Dietrich Klakow,
- Abstract要約: ADIモデルを訓練するための音声変換に基づく効果的なアプローチを提案する。
提案手法は、ドメイン間での精度を最大で+34.1%向上させる。
アラビア語のための包括的音声技術の開発を支援するために,我々の頑健なADIモデルとクロスドメイン評価データセットをリリースする。
- 参考スコア(独自算出の注目度): 24.822271779985453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Arabic dialect identification (ADI) systems are essential for large-scale data collection pipelines that enable the development of inclusive speech technologies for Arabic language varieties. However, the reliability of current ADI systems is limited by poor generalization to out-of-domain speech. In this paper, we present an effective approach based on voice conversion for training ADI models that achieves state-of-the-art performance and significantly improves robustness in cross-domain scenarios. Evaluated on a newly collected real-world test set spanning four different domains, our approach yields consistent improvements of up to +34.1% in accuracy across domains. Furthermore, we present an analysis of our approach and demonstrate that voice conversion helps mitigate the speaker bias in the ADI dataset. We release our robust ADI model and cross-domain evaluation dataset to support the development of inclusive speech technologies for Arabic.
- Abstract(参考訳): アラビア語の方言識別(ADI)システムは、アラビア語の変種に対する包括的音声技術の開発を可能にする大規模なデータ収集パイプラインに不可欠である。
しかし、現在のADIシステムの信頼性は、一般化の貧弱さからドメイン外音声に制限されている。
本稿では,ADIモデルを訓練するための音声変換に基づく効果的な手法を提案する。
4つの異なる領域にまたがる新たに収集された実世界のテストセットに基づいて評価し、本手法はドメイン間で最大+34.1%の精度で一貫した改善をもたらす。
さらに,提案手法の分析を行い,音声変換がADIデータセットの話者バイアスを軽減することを実証する。
アラビア語のための包括的音声技術の開発を支援するために,我々の頑健なADIモデルとクロスドメイン評価データセットをリリースする。
関連論文リスト
- Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文 参考訳(メタデータ) (2025-03-30T18:03:52Z) - Improving Generalization for AI-Synthesized Voice Detection [13.5672344219478]
本稿では,ボコーダに関連するドメインに依存しないアーティファクト特徴の抽出を目的とした,革新的なアンタングル化フレームワークを提案する。
我々は、平らなロスランドスケープにおけるモデル学習を強化し、最適化された解から逃れ、一般化を改善する。
論文 参考訳(メタデータ) (2024-12-26T16:45:20Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。