論文の概要: Data and knowledge-driven approaches for multilingual training to
improve the performance of speech recognition systems of Indian languages
- arxiv url: http://arxiv.org/abs/2201.09494v1
- Date: Mon, 24 Jan 2022 07:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 03:29:56.143048
- Title: Data and knowledge-driven approaches for multilingual training to
improve the performance of speech recognition systems of Indian languages
- Title(参考訳): インド語の音声認識システムの性能向上のための多言語学習のためのデータと知識駆動アプローチ
- Authors: A. Madhavaraj, Ramakrishnan Angarai Ganesan
- Abstract要約: 対象言語を対象とした自動音声認識システムの多言語学習のためのデータと知識駆動型アプローチを提案する。
電話/セノンマッピングでは、ディープニューラルネットワーク(DNN)がセノンや電話をある言語から他の言語にマッピングすることを学ぶ。
他の手法では、全ての言語に対して同時に音響情報をモデル化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose data and knowledge-driven approaches for multilingual training of
the automated speech recognition (ASR) system for a target language by pooling
speech data from multiple source languages. Exploiting the acoustic
similarities between Indian languages, we implement two approaches. In
phone/senone mapping, deep neural network (DNN) learns to map senones or phones
from one language to the others, and the transcriptions of the source languages
are modified such that they can be used along with the target language data to
train and fine-tune the target language ASR system. In the other approach, we
model the acoustic information for all the languages simultaneously by training
a multitask DNN (MTDNN) to predict the senones of each language in different
output layers. The cross-entropy loss and the weight update procedure are
modified such that only the shared layers and the output layer responsible for
predicting the senone classes of a language are updated during training, if the
feature vector belongs to that particular language. In the low-resource setting
(LRS), 40 hours of transcribed data each for Tamil, Telugu and Gujarati
languages are used for training. The DNN based senone mapping technique gives
relative improvements in word error rates (WER) of 9.66%, 7.2% and 15.21% over
the baseline system for Tamil, Gujarati and Telugu languages, respectively. In
medium-resourced setting (MRS), 160, 275 and 135 hours of data for Tamil,
Kannada and Hindi languages are used, where, the same technique gives better
relative improvements of 13.94%, 10.28% and 27.24% for Tamil, Kannada and
Hindi, respectively. The MTDNN with senone mapping based training in LRS, gives
higher relative WER improvements of 15.0%, 17.54% and 16.06%, respectively for
Tamil, Gujarati and Telugu, whereas in MRS, we see improvements of 21.24%
21.05% and 30.17% for Tamil, Kannada and Hindi languages, respectively.
- Abstract(参考訳): 複数のソース言語からの音声データをプールすることで、ターゲット言語に対する自動音声認識(ASR)システムの多言語学習のためのデータおよび知識駆動型アプローチを提案する。
インドの言語間の音響的類似性を活用し,2つのアプローチを実装した。
電話/セノンマッピングでは、ディープニューラルネットワーク(DNN)がセノンや電話をある言語から他の言語にマッピングすることを学び、ソース言語の転写がターゲット言語データとともに使用できるように変更され、ターゲット言語ASRシステムのトレーニングおよび微調整が行われる。
他方のアプローチでは,マルチタスクdnn(mtdnn)を訓練し,各言語のセノンを異なる出力層で予測することで,すべての言語に対する音響情報を同時にモデル化する。
クロスエントロピー損失とウェイト更新手順は、機能ベクトルが特定の言語に属する場合、トレーニング中に、共有層と、言語のセノンクラスを予測するための出力層のみを更新するように修正される。
低リソース設定(LRS)では、タミル語、テルグ語、グジャラート語でそれぞれ40時間の転写データがトレーニングに使用される。
DNNベースのセノンマッピング技術は、タミル語、グジャラート語、テルグ語のベースラインシステムの9.66%、7.2%、および15.21%の単語誤り率(WER)を相対的に改善する。
タミル語、カンナダ語、ヒンディー語では160時間、275時間、135時間のデータを使用し、タミル語、カンナダ語、ヒンディー語では13.94%、カナダ語では10.28%、27.24%の相対的な改善がなされている。
セノンマッピングに基づく訓練を施したmtdnnでは,タミル語,グジャラティ語,テルグ語では15.0%,17.54%,16.06%,mrsでは21.24%21.05%,タミル語,カンナダ語,ヒンディー語では30.17%の改善が見られた。
関連論文リスト
- Predicting positive transfer for improved low-resource speech
recognition using acoustic pseudo-tokens [31.83988006684616]
我々は、ターゲット言語を、類似の高リソースの「ドナー」言語からのデータで補うことが役立つことを示す。
例えば、60時間ドナーのヒンディーが補充された低リソースのパンジャービの10時間のみの事前訓練は、70時間ドナーのパンジャービの70時間ドナーのほぼ同程度である。
論文 参考訳(メタデータ) (2024-02-03T23:54:03Z) - cantnlp@LT-EDI-2024: Automatic Detection of Anti-LGBTQ+ Hate Speech in
Under-resourced Languages [0.0]
本稿では,LT-EDI-2024における共有タスクの一環として開発されたソーシャルメディアコメント検出システムにおけるホモフォビア/トランスフォビアについて述べる。
10の言語条件に対するマルチクラス分類モデルを開発するために,トランスフォーマーに基づくアプローチを採用した。
我々は,ソーシャルメディア言語の言語的現実を反映させるために,ドメイン適応中にスクリプト変更言語データの合成および有機的インスタンスを導入した。
論文 参考訳(メタデータ) (2024-01-28T21:58:04Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。