論文の概要: End-to-End Code Switching Language Models for Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2006.08870v1
- Date: Tue, 16 Jun 2020 02:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 21:23:45.933308
- Title: End-to-End Code Switching Language Models for Automatic Speech
Recognition
- Title(参考訳): 自動音声認識のためのエンドツーエンドコード切り替え言語モデル
- Authors: Ahan M. R., Shreyas Sunil Kulkarni
- Abstract要約: コードスイッチされたテキストは、バイリンガル・コミュニティにおいて最も一般的な出来事の1つである。
本稿では,深層二方向言語モデルを用いた単言語テキスト抽出手法を提案する。
また、ASRモデルからコード変更テキストを抽出する方法についても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we particularly work on the code-switched text, one of the
most common occurrences in the bilingual communities across the world. Due to
the discrepancies in the extraction of code-switched text from an Automated
Speech Recognition(ASR) module, and thereby extracting the monolingual text
from the code-switched text, we propose an approach for extracting monolingual
text using Deep Bi-directional Language Models(LM) such as BERT and other
Machine Translation models, and also explore different ways of extracting
code-switched text from the ASR model. We also explain the robustness of the
model by comparing the results of Perplexity and other different metrics like
WER, to the standard bi-lingual text output without any external information.
- Abstract(参考訳): 本稿では,特に,世界各国のバイリンガルコミュニティでよく見られる,コード交換テキストについて述べる。
自動音声認識(asr)モジュールからの符号切り換えテキストの抽出における不一致から、符号切り換えテキストから単言語テキストを抽出することにより、bertや他の機械翻訳モデルのような深い双方向言語モデル(lm)を用いて単言語テキストを抽出する手法を提案し、また、asrモデルから符号切り換えテキストを抽出する異なる方法を検討する。
また,このモデルのロバスト性について,パープレキシティやwerなどの他の指標と,外部情報のない標準バイリンガルテキスト出力を比較して説明する。
関連論文リスト
- Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text [1.9185059111021852]
事前学習された言語モデルが3次元のコードスイッチトテキストをどのように扱うかを検討する。
その結果,事前学習した言語モデルは,コードスイッチトテキストへの一般化に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-07T19:46:03Z) - Unsupervised Sign Language Translation and Generation [72.01216288379072]
教師なし手話翻訳・生成ネットワーク(USLNet)を導入する。
USLNetは、並列手話データなしで、豊富な単一モダリティ(テキストとビデオ)データから学習する。
可変長テキストとビデオシーケンスの整合性の問題に対処するスライディングウインドウ手法を提案する。
論文 参考訳(メタデータ) (2024-02-12T15:39:05Z) - External Knowledge Augmented Polyphone Disambiguation Using Large
Language Model [3.372242769313867]
生成タスクとして問題を解くための新しい方法を提案する。
検索モジュールは中国語の多音文字の多段階意味辞書である外部知識を取り入れている。
生成モジュールはデコーダのみのTransformerアーキテクチャを採用し、ターゲットテキストを誘導する。
Postprocessモジュールは、必要に応じて生成されたテキストを有効な結果に修正する。
論文 参考訳(メタデータ) (2023-12-19T08:00:10Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Towards Zero-Shot Code-Switched Speech Recognition [44.76492452463019]
ゼロショット設定の下で,効率的な符号切替自動音声認識システム (ASR) の構築を目指す。
そこで本研究では,各単言語モジュールの音声セグメントを単言語スクリプトで不特定に書き起こすことにより,各単言語モジュールを単純化することを提案する。
本手法をエンドツーエンドの微分可能なニューラルネットワークに適用し、マンダリン英語SEAMEテストセットにおけるゼロショットCS ASRの有効性を実証する。
論文 参考訳(メタデータ) (2022-11-02T19:52:54Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。