論文の概要: KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian
Languages Code-Switching Challenge
- arxiv url: http://arxiv.org/abs/2106.05885v1
- Date: Thu, 10 Jun 2021 16:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:18:04.653006
- Title: KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian
Languages Code-Switching Challenge
- Title(参考訳): カリ:カナリ/QCRIのInterSPEECH 2021インディアン言語コードスイッチングチャレンジのためのエンド・ツー・エンドシステム
- Authors: Amir Hussein, Shammur Chowdhury, Ahmed Ali
- Abstract要約: 本稿では,低リソースのインド言語に対するICS(Interspeech 2021 Code-switching)チャレンジに参加するために使用される,Kanari/QCRIシステムとモデリング戦略について述べる。
このサブタスクには、ヒンディー語とベンガル語という2つのCSデータセットのための音声認識システムの開発が含まれていた。
CSの課題に対処するために、公開のモノリンガルヒンディー語、ベンガル語、英語の音声データを取り入れるためにトランスファーラーニングを利用する。
- 参考スコア(独自算出の注目度): 7.711092265101041
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present the Kanari/QCRI (KARI) system and the modeling
strategies used to participate in the Interspeech 2021 Code-switching (CS)
challenge for low-resource Indian languages. The subtask involved developing a
speech recognition system for two CS datasets: Hindi-English and
Bengali-English, collected in a real-life scenario. To tackle the CS
challenges, we use transfer learning for incorporating the publicly available
monolingual Hindi, Bengali, and English speech data. In this work, we study the
effectiveness of two steps transfer learning protocol for low-resourced CS
data: monolingual pretraining, followed by fine-tuning. For acoustic modeling,
we develop an end-to-end convolution-augmented transformer (Conformer). We show
that selecting the percentage of each monolingual data affects model biases
towards using one language character set over the other in a CS scenario. The
models pretrained on well-aligned and accurate monolingual data showed
robustness against misalignment between the segments and the transcription.
Finally, we develop word-level n-gram language models (LM) to rescore ASR
recognition.
- Abstract(参考訳): 本稿では,カナリ/QCRI(Kanari/QCRI)システムと,低リソースインド言語に対するインタースペーチ2021コードスイッチング(CS)チャレンジに参加するためのモデリング戦略を提案する。
このサブタスクは、現実のシナリオで収集された2つのCSデータセット(ヒンディー語とベンガル語)の音声認識システムの開発に関わっている。
CSの課題に対処するために、公開のモノリンガルヒンディー語、ベンガル語、英語の音声データを取り入れるためにトランスファーラーニングを利用する。
本研究では,低リソースcsデータに対する2段階トランスファー学習プロトコルの有効性について検討した。
音響モデリングのための変換器(Conformer)を開発した。
CSシナリオにおいて,各単言語データのパーセンテージの選択が,一方の言語文字を他方で使用する際のモデルバイアスに影響を与えることを示す。
精度の高い単言語データで事前訓練したモデルでは, セグメントと転写の不一致に対する堅牢性を示した。
最後に、単語レベルn-gram言語モデル(LM)を開発し、ASR認識を再スコア化する。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - MunTTS: A Text-to-Speech System for Mundari [18.116359188623832]
MnTTSは,オーストリア・アジア系の低リソースのインド語であるムンダリ(Mundari)のための,エンドツーエンドのテキスト音声合成システムである。
本研究は、音声合成システムを構築するために、データを収集し、処理することで、未表現言語における言語技術のギャップに対処する。
論文 参考訳(メタデータ) (2024-01-28T06:27:17Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - End-to-End Speech Translation for Code Switched Speech [13.97982457879585]
コードスイッチング(英: Code switch, CS)とは、異なる言語の単語やフレーズを相互に使用する現象である。
我々は,音声翻訳作業(ST)における英語とスペイン語の会話の文脈において,CSに着目し,書き起こしと翻訳の両方を生成・評価する。
我々のSTアーキテクチャ、特に双方向のエンドツーエンドアーキテクチャは、CS訓練データを使用しなくても、CS音声でよく機能することを示す。
論文 参考訳(メタデータ) (2022-04-11T13:25:30Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - The ASRU 2019 Mandarin-English Code-Switching Speech Recognition
Challenge: Open Datasets, Tracks, Methods and Results [9.089285414356969]
本稿では,ASRU 2019 Mandarin- English code-switching speech recognition Challengeの設計と主な成果について述べる。
500時間 マンダリン音声データと240時間 マンダリン英語 CS データを参加者に公開する。
論文 参考訳(メタデータ) (2020-07-12T05:38:57Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。