論文の概要: Arabic Code-Switching Speech Recognition using Monolingual Data
- arxiv url: http://arxiv.org/abs/2107.01573v1
- Date: Sun, 4 Jul 2021 08:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:49:43.969558
- Title: Arabic Code-Switching Speech Recognition using Monolingual Data
- Title(参考訳): 単言語データを用いたアラビア語コード切り換え音声認識
- Authors: Ahmed Ali, Shammur Chowdhury, Amir Hussein, Yasser Hifny
- Abstract要約: 自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
- 参考スコア(独自算出の注目度): 13.513655231184261
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code-switching in automatic speech recognition (ASR) is an important
challenge due to globalization. Recent research in multilingual ASR shows
potential improvement over monolingual systems. We study key issues related to
multilingual modeling for ASR through a series of large-scale ASR experiments.
Our innovative framework deploys a multi-graph approach in the weighted finite
state transducers (WFST) framework. We compare our WFST decoding strategies
with a transformer sequence to sequence system trained on the same data. Given
a code-switching scenario between Arabic and English languages, our results
show that the WFST decoding approaches were more suitable for the
intersentential code-switching datasets. In addition, the transformer system
performed better for intrasentential code-switching task. With this study, we
release an artificially generated development and test sets, along with
ecological code-switching test set, to benchmark the ASR performance.
- Abstract(参考訳): 自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
大規模ASR実験を通じて,ASRの多言語モデリングに関する重要な課題について検討する。
我々の革新的なフレームワークは、重み付き有限状態トランスデューサ(WFST)フレームワークにマルチグラフアプローチを展開している。
WFST復号化戦略とトランスフォーマーシーケンスを同一データ上で訓練されたシーケンスシステムと比較する。
アラビア語と英語の間でのコードスイッチングのシナリオから、WFSTデコードアプローチは、間欠的なコードスイッチングデータセットに適していることを示す。
さらに、トランスフォーマシステムは、イントラセンテンシャルコード切り換えタスクに優れていた。
本研究では,ASR性能のベンチマークを行うために,人工的に生成された開発とテストセット,および生態学的コードスイッチングテストセットをリリースする。
関連論文リスト
- Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Optimizing Bilingual Neural Transducer with Synthetic Code-switching
Text Generation [10.650573361117669]
半教師付きトレーニングと合成コードスイッチングデータにより、コードスイッチング音声におけるバイリンガルASRシステムを改善することができる。
最終システムは ASCEND English/Mandarin code-switching test set 上で25%混合誤り率 (MER) を達成する。
論文 参考訳(メタデータ) (2022-10-21T19:42:41Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Transformer-Transducers for Code-Switched Speech Recognition [23.281314397784346]
コード切替音声認識のためのトランスフォーマー・トランスデューサモデルアーキテクチャを用いたエンドツーエンドのASRシステムを提案する。
まず、コードスイッチングの低リソースシナリオを扱うために、2つの補助損失関数を導入する。
第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
論文 参考訳(メタデータ) (2020-11-30T17:27:41Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Improving Low Resource Code-switched ASR using Augmented Code-switched
TTS [29.30430160611224]
近年,コードスイッチによる音声認識システムの構築が注目されている。
エンドツーエンドシステムは大量のラベル付き音声を必要とする。
絶対単語誤り率(WER)を最大5%まで低下させるASR性能の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-10-12T09:15:12Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - Learning not to Discriminate: Task Agnostic Learning for Improving
Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。
提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文 参考訳(メタデータ) (2020-06-09T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。