論文の概要: VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System
- arxiv url: http://arxiv.org/abs/2310.11069v4
- Date: Fri, 27 Oct 2023 13:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 10:51:44.115408
- Title: VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System
- Title(参考訳): VoxArabica:ロバストな方言対応アラビア語音声認識システム
- Authors: Abdul Waheed, Bashar Talafha, Peter Sullivan, AbdelRahim Elmadany,
Muhammad Abdul-Mageed
- Abstract要約: VoxArabicaは、アラビア語の方言識別(DID)と自動音声認識(ASR)のためのシステムである。
我々は、アラビアDIDおよびASRタスクの教師付き設定において、HuBERT(DID)、Whisper、XLS-R(ASR)などの広範囲のモデルを訓練する。
MSA、エジプト、モロッコ、および混合データでASRモデルを微調整します。
私たちはこれらのモデルを単一Webインターフェースに統合し、オーディオ記録、ファイルアップロード、モデル選択、誤出力のためのフラグを掲げるオプションなど、さまざまな機能を備えています。
- 参考スコア(独自算出の注目度): 16.420831300734697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arabic is a complex language with many varieties and dialects spoken by over
450 millions all around the world. Due to the linguistic diversity and
variations, it is challenging to build a robust and generalized ASR system for
Arabic. In this work, we address this gap by developing and demoing a system,
dubbed VoxArabica, for dialect identification (DID) as well as automatic speech
recognition (ASR) of Arabic. We train a wide range of models such as HuBERT
(DID), Whisper, and XLS-R (ASR) in a supervised setting for Arabic DID and ASR
tasks. Our DID models are trained to identify 17 different dialects in addition
to MSA. We finetune our ASR models on MSA, Egyptian, Moroccan, and mixed data.
Additionally, for the remaining dialects in ASR, we provide the option to
choose various models such as Whisper and MMS in a zero-shot setting. We
integrate these models into a single web interface with diverse features such
as audio recording, file upload, model selection, and the option to raise flags
for incorrect outputs. Overall, we believe VoxArabica will be useful for a wide
range of audiences concerned with Arabic research. Our system is currently
running at https://cdce-206-12-100-168.ngrok.io/.
- Abstract(参考訳): アラビア語は複雑な言語であり、世界中で4億5000万以上の方言が話されている。
言語的多様性とバリエーションのため、アラビア語のための堅牢で一般化されたASRシステムを構築することは困難である。
本研究では、方言識別(DID)とアラビア語の自動音声認識(ASR)のためのVoxArabicaと呼ばれるシステムを開発し、デモすることで、このギャップに対処する。
我々は、アラビアDIDおよびASRタスクの教師付き設定において、HuBERT(DID)、Whisper、XLS-R(ASR)などの広範囲のモデルを訓練する。
我々のDIDモデルは、MSAに加えて17種類の方言を識別するように訓練されている。
MSA、エジプト、モロッコ、および混合データでASRモデルを微調整します。
さらに、ASRの残りの方言に対しては、ゼロショット設定でWhisperやMMSなどの様々なモデルを選択するオプションを提供する。
私たちはこれらのモデルを単一Webインターフェースに統合し、オーディオ記録、ファイルアップロード、モデル選択、誤出力のためのフラグを掲げるオプションなど様々な機能を提供します。
全体としては、VoxArabicaはアラビア研究に関する幅広い聴衆にとって有用であると考えています。
私たちのシステムは、現在https://cdce-206-12-100-168.ngrok.io/で動作しています。
関連論文リスト
- Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition [8.731646409966737]
ウィスパーがアラビア語のような言語で評価されたとしても、様々な条件下でどのように運べるかは明らかではない。
本評価は, アラビア語音声データの大部分を網羅し, n-shot finetuning で行う。
また、Whisper の全く新しい条件下での堅牢性についても検討する。
論文 参考訳(メタデータ) (2023-06-05T14:09:25Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - SD-QA: Spoken Dialectal Question Answering for the Real World [15.401330338654203]
われわれは5つの言語(アラビア語、ベンガル語、英語、キスワヒリ語、韓国語)で68k以上の音声プロンプトを、255人の話者から24の方言で作成する。
本稿では,QAシステムの実環境性能を示すベースライン結果を提供し,下流性能に対する言語多様性やその他の感性的話者属性の影響を解析する。
最後に,ASRモデルとQAモデルの妥当性について,基礎となるユーザ数について検討する。
論文 参考訳(メタデータ) (2021-09-24T16:54:27Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。