論文の概要: Exploiting Spectral Augmentation for Code-Switched Spoken Language
Identification
- arxiv url: http://arxiv.org/abs/2010.07130v1
- Date: Wed, 14 Oct 2020 14:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:14:07.622881
- Title: Exploiting Spectral Augmentation for Code-Switched Spoken Language
Identification
- Title(参考訳): コード切り換え音声言語識別におけるスペクトル拡張の活用
- Authors: Pradeep Rangan, Sundeep Teki, and Hemant Misra
- Abstract要約: 音声によるLIDを3つのインド語で実行し、それを英語と混合する。
このタスクは、Microsoftの研究チームによって、話し言葉のLIDチャレンジとして組織された。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language Identification (LID) systems are needed to identify the
language(s) present in a given audio sample, and typically could be the first
step in many speech processing related tasks such as automatic speech
recognition (ASR). Automatic identification of the languages present in a
speech signal is not only scientifically interesting, but also of practical
importance in a multilingual country such as India. In many of the Indian
cities, when people interact with each other, as many as three languages may
get mixed. These may include the official language of that province, Hindi and
English (at times the languages of the neighboring provinces may also get mixed
during these interactions). This makes the spoken LID task extremely
challenging in Indian context. While quite a few LID systems in the context of
Indian languages have been implemented, most such systems have used small scale
speech data collected internally within an organization. In the current work,
we perform spoken LID on three Indian languages (Gujarati, Telugu, and Tamil)
code-mixed with English. This task was organized by the Microsoft research team
as a spoken LID challenge. In our work, we modify the usual spectral
augmentation approach and propose a language mask that discriminates the
language ID pairs, which leads to a noise robust spoken LID system. The
proposed method gives a relative improvement of approximately 3-5% in the LID
accuracy over a baseline system proposed by Microsoft on the three language
pairs for two shared tasks suggested in the challenge.
- Abstract(参考訳): 音声言語識別(lid)システムは、与えられた音声サンプルに存在する言語を識別するために必要であり、通常、自動音声認識(asr)のような多くの音声処理に関連するタスクの最初のステップとなる。
音声信号に含まれる言語の自動識別は科学的に興味深いだけでなく、インドのような多言語国において実践的に重要である。
多くのインドの都市では、人々が互いに対話するとき、3つの言語が混在することがある。
これらの言語には、ヒンディー語、英語の公用語が含まれる(時には近隣の諸州の言語も混在することもある)。
これにより、インドの文脈ではLIDタスクは極めて困難である。
インド語の文脈ではかなり多くのLIDシステムが実装されているが、ほとんどのシステムは組織内部で収集された小規模の音声データを用いている。
現在の研究では、3つのインド語(Gujarati、Telugu、Tamil)で音声LIDをコード化して実行しています。
このタスクはmicrosoft researchチームによって、lidチャレンジとして組織された。
本研究では,従来のスペクトル拡張手法を改良し,言語IDペアを識別する言語マスクを提案する。
提案手法は,microsoftが提案する2つの共通タスクに対する3つの言語ペアについて提案するベースラインシステムに対して,約3~5%のlid精度を相対的に向上させる。
関連論文リスト
- Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Adversarial synthesis based data-augmentation for code-switched spoken
language identification [0.0]
音声言語識別(LID)は自動音声認識(ASR)の重要なサブタスクである
本研究は、英語と混在するIndic言語に焦点をあてる。
Mel Spectrograms を用いたGANに基づく音声データの拡張手法
論文 参考訳(メタデータ) (2022-05-30T06:41:13Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。