論文の概要: Adversarial synthesis based data-augmentation for code-switched spoken
language identification
- arxiv url: http://arxiv.org/abs/2205.15747v1
- Date: Mon, 30 May 2022 06:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 10:49:52.390359
- Title: Adversarial synthesis based data-augmentation for code-switched spoken
language identification
- Title(参考訳): 逆合成に基づく音声言語識別のためのデータ拡張
- Authors: Parth Shastri, Chirag Patil, Poorval Wanere, Dr. Shrinivas Mahajan,
Dr. Abhishek Bhatt, Dr. Hardik Sailor
- Abstract要約: 音声言語識別(LID)は自動音声認識(ASR)の重要なサブタスクである
本研究は、英語と混在するIndic言語に焦点をあてる。
Mel Spectrograms を用いたGANに基づく音声データの拡張手法
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Language Identification (LID) is an important sub-task of Automatic
Speech Recognition(ASR) that is used to classify the language(s) in an audio
segment. Automatic LID plays an useful role in multilingual countries. In
various countries, identifying a language becomes hard, due to the multilingual
scenario where two or more than two languages are mixed together during
conversation. Such phenomenon of speech is called as code-mixing or
code-switching. This nature is followed not only in India but also in many
Asian countries. Such code-mixed data is hard to find, which further reduces
the capabilities of the spoken LID. Due to the lack of avalibility of this
code-mixed data, it becomes a minority class in LID task. Hence, this work
primarily addresses this problem using data augmentation as a solution on the
minority code-switched class. This study focuses on Indic language code-mixed
with English. Spoken LID is performed on Hindi, code-mixed with English. This
research proposes Generative Adversarial Network (GAN) based data augmentation
technique performed using Mel spectrograms for audio data. GANs have already
been proven to be accurate in representing the real data distribution in the
image domain. Proposed research exploits these capabilities of GANs in speech
domains such as speech classification, automatic speech recognition,etc. GANs
are trained to generate Mel spectrograms of the minority code-mixed class which
are then used to augment data for the classifier. Utilizing GANs give an
overall improvement on Unweighted Average Recall by an amount of 3.5\% as
compared to a Convolutional Recurrent Neural Network (CRNN) classifier used as
the baseline reference.
- Abstract(参考訳): Spoken Language Identification (LID) は、音声セグメント内の言語を分類するために使用される自動音声認識(ASR)の重要なサブタスクである。
自動LIDは多言語国で有用な役割を担っている。
様々な国では、会話中に2つ以上の言語が混在する多言語シナリオのため、言語識別が困難になる。
このような音声の現象をコードミキシング(code-mixing)またはコードスイッチング(code-switching)と呼ぶ。
この性質はインドだけでなく、多くのアジア諸国でも見られる。
このようなコード混合データは見つけるのが難しいため、音声蓋の能力はさらに低下する。
このコードミックスデータの妥当性の欠如により、LIDタスクではマイノリティクラスとなる。
したがって、この研究は主に、マイノリティなコードスイッチングクラスのソリューションとして、データ拡張を使用してこの問題に対処する。
本研究は、英語と混在するIndic言語に焦点をあてる。
Spoken LIDはヒンディー語で実行され、コードには英語が混在している。
本研究では,Mel Spectrograms を用いた音声データに対するGANに基づくデータ拡張手法を提案する。
GANは画像領域における実際のデータ分布を表現する上ですでに正確であることが証明されている。
提案する研究は、音声分類、自動音声認識、etcなどの音声領域におけるganの能力を活用する。
GANはマイノリティなコード混合クラスのMelスペクトログラムを生成するために訓練され、次に分類器のデータを増やすために使用される。
GANを利用することで、ベースライン参照として使用される畳み込みリカレントニューラルネットワーク(CRNN)分類器と比較して、Unweighted Average Recallを3.5倍に改善する。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Code-Switched Urdu ASR for Noisy Telephonic Environment using Data
Centric Approach with Hybrid HMM and CNN-TDNN [0.0]
ウルドゥー語は世界で10番目に広く話されている言語であり、世界中で231,295,440が今もASRの資源制約言語として残っている。
本稿では,雑音の多いコールセンタ環境下で,リソース効率の良い音声認識/音声音声テキストシステムの実装フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-07-24T13:04:21Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - Exploiting Spectral Augmentation for Code-Switched Spoken Language
Identification [2.064612766965483]
音声によるLIDを3つのインド語で実行し、それを英語と混合する。
このタスクは、Microsoftの研究チームによって、話し言葉のLIDチャレンジとして組織された。
論文 参考訳(メタデータ) (2020-10-14T14:37:03Z) - kk2018 at SemEval-2020 Task 9: Adversarial Training for Code-Mixing
Sentiment Classification [18.41476971318978]
コードスイッチング(英: Code switch)とは、話者が複数の言語を共有する多言語環境において発生する言語現象である。
本研究では、コードミキシングデータセット上で、最先端のユニ言語モデルERNIEからのドメイン転送学習をテストする。
多言語モデルによる対戦訓練は、セムヴァル2020タスク9ヒンディー語の感情分類競技の第1位を達成するために使用される。
論文 参考訳(メタデータ) (2020-09-08T12:20:04Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。