論文の概要: Voice Conversion Improves Cross-Domain Robustness for Spoken Arabic Dialect Identification
- arxiv url: http://arxiv.org/abs/2505.24713v1
- Date: Fri, 30 May 2025 15:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.039677
- Title: Voice Conversion Improves Cross-Domain Robustness for Spoken Arabic Dialect Identification
- Title(参考訳): 音声変換によるアラビア方言識別のためのクロスドメインロバスト性の改善
- Authors: Badr M. Abdullah, Matthew Baas, Bernd Möbius, Dietrich Klakow,
- Abstract要約: ADIモデルを訓練するための音声変換に基づく効果的なアプローチを提案する。
提案手法は、ドメイン間での精度を最大で+34.1%向上させる。
アラビア語のための包括的音声技術の開発を支援するために,我々の頑健なADIモデルとクロスドメイン評価データセットをリリースする。
- 参考スコア(独自算出の注目度): 24.822271779985453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Arabic dialect identification (ADI) systems are essential for large-scale data collection pipelines that enable the development of inclusive speech technologies for Arabic language varieties. However, the reliability of current ADI systems is limited by poor generalization to out-of-domain speech. In this paper, we present an effective approach based on voice conversion for training ADI models that achieves state-of-the-art performance and significantly improves robustness in cross-domain scenarios. Evaluated on a newly collected real-world test set spanning four different domains, our approach yields consistent improvements of up to +34.1% in accuracy across domains. Furthermore, we present an analysis of our approach and demonstrate that voice conversion helps mitigate the speaker bias in the ADI dataset. We release our robust ADI model and cross-domain evaluation dataset to support the development of inclusive speech technologies for Arabic.
- Abstract(参考訳): アラビア語の方言識別(ADI)システムは、アラビア語の変種に対する包括的音声技術の開発を可能にする大規模なデータ収集パイプラインに不可欠である。
しかし、現在のADIシステムの信頼性は、一般化の貧弱さからドメイン外音声に制限されている。
本稿では,ADIモデルを訓練するための音声変換に基づく効果的な手法を提案する。
4つの異なる領域にまたがる新たに収集された実世界のテストセットに基づいて評価し、本手法はドメイン間で最大+34.1%の精度で一貫した改善をもたらす。
さらに,提案手法の分析を行い,音声変換がADIデータセットの話者バイアスを軽減することを実証する。
アラビア語のための包括的音声技術の開発を支援するために,我々の頑健なADIモデルとクロスドメイン評価データセットをリリースする。
関連論文リスト
- Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis [5.283520143851873]
本稿では,データ最適化フレームワークと高度な音響モデルを統合し,高品質なTTSシステムを構築する手法を提案する。
本稿では,タイ語を実例として,複雑な音声規則とスパースリソースを効果的に扱う手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-10T15:32:57Z) - Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文 参考訳(メタデータ) (2025-03-30T18:03:52Z) - Improving Generalization for AI-Synthesized Voice Detection [13.5672344219478]
本稿では,ボコーダに関連するドメインに依存しないアーティファクト特徴の抽出を目的とした,革新的なアンタングル化フレームワークを提案する。
我々は、平らなロスランドスケープにおけるモデル学習を強化し、最適化された解から逃れ、一般化を改善する。
論文 参考訳(メタデータ) (2024-12-26T16:45:20Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - On the Robustness of Arabic Speech Dialect Identification [6.68194398006805]
アラビア方言識別(ADI)ツールは、音声認識モデルの訓練に必要な大規模データ収集パイプラインの重要な部分である。
我々はSSL機能から転送学習と直接分類を評価する。
我々の分析は、ドメインシフトがADIモデルにとって大きな課題であることを確認した。
論文 参考訳(メタデータ) (2023-06-01T21:31:00Z) - Improving Accented Speech Recognition with Multi-Domain Training [2.28438857884398]
我々は、4つの異なるフランス語アクセントを表す音声を用いて、事前訓練されたASRモデルの堅牢性を改善する微調整データセットを作成する。
数値実験により,アフリカやベルギーのアクセントに対して,誤り率を最大25%(相対的に)下げることができた。
論文 参考訳(メタデータ) (2023-03-14T14:10:16Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。