Fugu-MT 論文翻訳(概要): Gujarati-English Code-Switching Speech Recognition using ensemble prediction of spoken language

論文の概要: Gujarati-English Code-Switching Speech Recognition using ensemble prediction of spoken language

arxiv url: http://arxiv.org/abs/2403.08011v1
Date: Tue, 12 Mar 2024 18:21:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 16:55:12.597085
Title: Gujarati-English Code-Switching Speech Recognition using ensemble prediction of spoken language
Title（参考訳）: アンサンブルを用いたGujarati-Bring Code-Switching Speech Recognition 話し言葉の予測
Authors: Yash Sharma, Basil Abraham, Preethi Jyothi
Abstract要約: マルチヘッドアテンション機構において,言語固有のパラメータと説明可能性を導入する2つの手法を提案する。 WERを著しく削減できないにもかかわらず、本手法は音声データから正しい言語を予測することを約束している。
参考スコア（独自算出の注目度）: 29.058108207186816
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: An important and difficult task in code-switched speech recognition is to recognize the language, as lots of words in two languages can sound similar, especially in some accents. We focus on improving performance of end-to-end Automatic Speech Recognition models by conditioning transformer layers on language ID of words and character in the output in an per layer supervised manner. To this end, we propose two methods of introducing language specific parameters and explainability in the multi-head attention mechanism, and implement a Temporal Loss that helps maintain continuity in input alignment. Despite being unable to reduce WER significantly, our method shows promise in predicting the correct language from just spoken data. We introduce regularization in the language prediction by dropping LID in the sequence, which helps align long repeated output sequences.
Abstract（参考訳）: コードスイッチによる音声認識における重要な課題は、特にアクセントにおいて、2つの言語における多くの単語が類似して聞こえるので、言語を認識することである。本稿では,単語と文字の言語IDにトランスフォーマー層を条件付け,各層を教師する手法により,エンドツーエンドの自動音声認識モデルの性能向上に焦点をあてる。そこで本研究では,マルチヘッドアテンション機構において,言語固有のパラメータと説明可能性を導入する2つの手法を提案し,入力アライメントの継続性を維持するための時間ロスを実装した。 WERを著しく削減できないにもかかわらず、本手法は音声データから正しい言語を予測することを約束している。我々は,LIDをシーケンスにドロップすることで,長い繰り返し出力シーケンスの整列を支援する言語予測の正規化を導入する。

関連論文リスト

Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文参考訳（メタデータ） (2024-06-18T13:38:58Z)
Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文参考訳（メタデータ） (2023-12-15T07:46:35Z)
MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。 AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文参考訳（メタデータ） (2022-11-29T13:16:09Z)
Align, Write, Re-order: Explainable End-to-End Speech Translation via Operation Sequence Generation [37.48971774827332]
後から再注文する方法を記憶しながら,STトークンをアウト・オブ・オーダーで生成することを提案する。本研究は, モノトニック文字起こしと非モノトニック翻訳を可能にする2種類の操作シーケンスについて検討する。
論文参考訳（メタデータ） (2022-11-11T02:29:28Z)
Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-10-17T12:15:57Z)
Code-Switching without Switching: Language Agnostic End-to-End Speech Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。 LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文参考訳（メタデータ） (2022-10-04T10:34:25Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
On the Importance of Word Order Information in Cross-lingual Sequence Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文参考訳（メタデータ） (2020-01-30T03:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。