論文の概要: Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR
- arxiv url: http://arxiv.org/abs/2105.14779v1
- Date: Mon, 31 May 2021 08:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:01:42.588372
- Title: Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR
- Title(参考訳): すべてを支配する1つのモデルに向けて: 方言コード切り換えアラビア語asrのための多言語戦略
- Authors: Shammur Absar Chowdhury, Amir Hussein, Ahmed Abdelali, Ahmed Ali
- Abstract要約: 自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
- 参考スコア(独自算出の注目度): 11.363966269198064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the advent of globalization, there is an increasing demand for
multilingual automatic speech recognition (ASR), handling language and
dialectal variation of spoken content. Recent studies show its efficacy over
monolingual systems. In this study, we design a large multilingual end-to-end
ASR using self-attention based conformer architecture. We trained the system
using Arabic (Ar), English (En) and French (Fr) languages. We evaluate the
system performance handling: (i) monolingual (Ar, En and Fr); (ii)
multi-dialectal (Modern Standard Arabic, along with dialectal variation such as
Egyptian and Moroccan); (iii) code-switching -- cross-lingual (Ar-En/Fr) and
dialectal (MSA-Egyptian dialect) test cases, and compare with current
state-of-the-art systems. Furthermore, we investigate the influence of
different embedding/character representations including character vs
word-piece; shared vs distinct input symbol per language. Our findings
demonstrate the strength of such a model by outperforming state-of-the-art
monolingual dialectal Arabic and code-switching Arabic ASR.
- Abstract(参考訳): グローバル化の進展に伴い,多言語自動音声認識(ASR)や言語処理,音声コンテンツの方言変化などへの需要が高まっている。
最近の研究はモノリンガルシステムに対する効果を示している。
本研究では,自己アテンションに基づくコンストラクタアーキテクチャを用いて,大規模多言語対エンドツーエンドのASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
i)モノリンガル (Ar, En, Fr), (ii) 複数方言 (現代標準アラビア語, エジプト語やモロッコ語などの方言の変種) コードスイッチング (iii) クロスリンガル (Ar-En/Fr) および方言 (MSA-エジプト語方言) テストケースを比較し, 現在の最先端システムと比較した。
さらに,文字対単語要素を含む異なる埋め込み/文字表現の影響について検討した。
以上の結果から,アラビア語単言語方言やコードスイッチングアラビア語asrを上回ることで,このようなモデルの強みが示された。
関連論文リスト
- ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs [1.6381055567716192]
本稿では,機械翻訳(MT)と自動音声認識(ASR)システムの複雑さについて検討する。
我々は、コード変更されたエジプトのアラビア語を英語またはエジプトのアラビア語に翻訳することに重点を置いている。
本稿では,LLama や Gemma などの大規模言語モデルを用いて,これらのシステムの開発に使用される手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T07:19:51Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System [16.420831300734697]
VoxArabicaは、アラビア語の方言識別(DID)と自動音声認識(ASR)のためのシステムである。
我々は、アラビアDIDおよびASRタスクの教師付き設定において、HuBERT(DID)、Whisper、XLS-R(ASR)などの広範囲のモデルを訓練する。
MSA、エジプト、モロッコ、および混合データでASRモデルを微調整します。
私たちはこれらのモデルを単一Webインターフェースに統合し、オーディオ記録、ファイルアップロード、モデル選択、誤出力のためのフラグを掲げるオプションなど、さまざまな機能を備えています。
論文 参考訳(メタデータ) (2023-10-17T08:33:02Z) - Unify and Conquer: How Phonetic Feature Representation Affects Polyglot
Text-To-Speech (TTS) [3.57486761615991]
統一表現は、自然性とアクセントの両方に関して、より優れた言語間合成を達成する。
分離表現は、モデルキャパシティに影響を与える可能性がある統一表現よりも桁違いに多くのトークンを持つ傾向がある。
論文 参考訳(メタデータ) (2022-07-04T16:14:57Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。