論文の概要: Dialectal Coverage And Generalization in Arabic Speech Recognition
- arxiv url: http://arxiv.org/abs/2411.05872v1
- Date: Thu, 07 Nov 2024 22:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:08:13.994322
- Title: Dialectal Coverage And Generalization in Arabic Speech Recognition
- Title(参考訳): アラビア語音声認識における辞書被覆と一般化
- Authors: Amirbek Djanibekov, Hawau Olamide Toyin, Raghad Alshalan, Abdullah Alitr, Hanan Aldarmaki,
- Abstract要約: 本研究は,事前学習における方言カバレッジの役割,方言固有の微調整の有効性,および未知の方言への一般化能力について検討した。
様々な方言の組み合わせにわたる広範な実験を通じて、我々の研究はアラビア語のような多中心言語のためのASRシステムの開発を進めるための重要な洞察を提供する。
- 参考スコア(独自算出の注目度): 0.6757476692230007
- License:
- Abstract: Developing robust automatic speech recognition (ASR) systems for Arabic, a language characterized by its rich dialectal diversity and often considered a low-resource language in speech technology, demands effective strategies to manage its complexity. This study explores three critical factors influencing ASR performance: the role of dialectal coverage in pre-training, the effectiveness of dialect-specific fine-tuning compared to a multi-dialectal approach, and the ability to generalize to unseen dialects. Through extensive experiments across different dialect combinations, our findings offer key insights towards advancing the development of ASR systems for pluricentric languages like Arabic.
- Abstract(参考訳): アラビア語のための堅牢な自動音声認識(ASR)システムの開発は、その豊富な方言の多様性を特徴とし、しばしば音声技術における低リソース言語と見なされる言語であり、その複雑さを管理する効果的な戦略を要求する。
本研究では,ASRのパフォーマンスに影響を与える3つの重要な要因について検討した。事前学習における方言カバレッジの役割,多方言アプローチと比較して方言固有の微調整の有効性,未確認方言に一般化する能力である。
異なる方言の組み合わせにわたる広範な実験を通じて、我々の研究はアラビア語のような多中心言語のためのASRシステムの開発を進めるための重要な洞察を提供する。
関連論文リスト
- CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation [68.81271028921647]
我々は,現実的なマルチターン対話環境におけるRAGシステム評価のためのベンチマークであるCORALを紹介する。
コラルにはウィキペディアから自動的に派生した多様な情報検索会話が含まれている。
対話型RAGの3つの中核的なタスク、すなわち、通過検索、応答生成、および引用ラベリングをサポートする。
論文 参考訳(メタデータ) (2024-10-30T15:06:32Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain [0.0]
この研究は、アラビア語における電話会話の課題に対処するために、アラビア語音声認識のための包括的なベンチマークを導入する試みである。
我々の研究は、アラビア方言の幅広い範囲を包含するだけでなく、コールベースのコミュニケーションの現実的な条件をエミュレートする堅牢なベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-03-07T07:24:32Z) - The Balancing Act: Unmasking and Alleviating ASR Biases in Portuguese [5.308321515594125]
本研究は,Whisper および MMS システムの総合的な探索を目的としたものである。
調査対象は性別,年齢,肌の色,位置情報など多岐にわたる。
オーバーサンプリング技術がこのようなステレオタイプバイアスを軽減することを実証的に示す。
論文 参考訳(メタデータ) (2024-02-12T09:35:13Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech
Recognition [12.23416994447554]
我々はMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。
MoLEは、任意の言語で入力された音声から言語表現を分析し、軽量な言語トークン化器で言語固有の専門家を活性化する。
信頼性に基づいて、アクティベートされた専門家と言語に依存しない専門家を集約し、言語条件の埋め込みを表現する。
論文 参考訳(メタデータ) (2023-02-27T13:26:17Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z) - Accented Speech Recognition: A Survey [0.0]
本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
論文 参考訳(メタデータ) (2021-04-21T20:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。