論文の概要: Data and knowledge-driven approaches for multilingual training to
improve the performance of speech recognition systems of Indian languages
- arxiv url: http://arxiv.org/abs/2201.09494v1
- Date: Mon, 24 Jan 2022 07:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 03:29:56.143048
- Title: Data and knowledge-driven approaches for multilingual training to
improve the performance of speech recognition systems of Indian languages
- Title(参考訳): インド語の音声認識システムの性能向上のための多言語学習のためのデータと知識駆動アプローチ
- Authors: A. Madhavaraj, Ramakrishnan Angarai Ganesan
- Abstract要約: 対象言語を対象とした自動音声認識システムの多言語学習のためのデータと知識駆動型アプローチを提案する。
電話/セノンマッピングでは、ディープニューラルネットワーク(DNN)がセノンや電話をある言語から他の言語にマッピングすることを学ぶ。
他の手法では、全ての言語に対して同時に音響情報をモデル化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose data and knowledge-driven approaches for multilingual training of
the automated speech recognition (ASR) system for a target language by pooling
speech data from multiple source languages. Exploiting the acoustic
similarities between Indian languages, we implement two approaches. In
phone/senone mapping, deep neural network (DNN) learns to map senones or phones
from one language to the others, and the transcriptions of the source languages
are modified such that they can be used along with the target language data to
train and fine-tune the target language ASR system. In the other approach, we
model the acoustic information for all the languages simultaneously by training
a multitask DNN (MTDNN) to predict the senones of each language in different
output layers. The cross-entropy loss and the weight update procedure are
modified such that only the shared layers and the output layer responsible for
predicting the senone classes of a language are updated during training, if the
feature vector belongs to that particular language. In the low-resource setting
(LRS), 40 hours of transcribed data each for Tamil, Telugu and Gujarati
languages are used for training. The DNN based senone mapping technique gives
relative improvements in word error rates (WER) of 9.66%, 7.2% and 15.21% over
the baseline system for Tamil, Gujarati and Telugu languages, respectively. In
medium-resourced setting (MRS), 160, 275 and 135 hours of data for Tamil,
Kannada and Hindi languages are used, where, the same technique gives better
relative improvements of 13.94%, 10.28% and 27.24% for Tamil, Kannada and
Hindi, respectively. The MTDNN with senone mapping based training in LRS, gives
higher relative WER improvements of 15.0%, 17.54% and 16.06%, respectively for
Tamil, Gujarati and Telugu, whereas in MRS, we see improvements of 21.24%
21.05% and 30.17% for Tamil, Kannada and Hindi languages, respectively.
- Abstract(参考訳): 複数のソース言語からの音声データをプールすることで、ターゲット言語に対する自動音声認識(ASR)システムの多言語学習のためのデータおよび知識駆動型アプローチを提案する。
インドの言語間の音響的類似性を活用し,2つのアプローチを実装した。
電話/セノンマッピングでは、ディープニューラルネットワーク(DNN)がセノンや電話をある言語から他の言語にマッピングすることを学び、ソース言語の転写がターゲット言語データとともに使用できるように変更され、ターゲット言語ASRシステムのトレーニングおよび微調整が行われる。
他方のアプローチでは,マルチタスクdnn(mtdnn)を訓練し,各言語のセノンを異なる出力層で予測することで,すべての言語に対する音響情報を同時にモデル化する。
クロスエントロピー損失とウェイト更新手順は、機能ベクトルが特定の言語に属する場合、トレーニング中に、共有層と、言語のセノンクラスを予測するための出力層のみを更新するように修正される。
低リソース設定(LRS)では、タミル語、テルグ語、グジャラート語でそれぞれ40時間の転写データがトレーニングに使用される。
DNNベースのセノンマッピング技術は、タミル語、グジャラート語、テルグ語のベースラインシステムの9.66%、7.2%、および15.21%の単語誤り率(WER)を相対的に改善する。
タミル語、カンナダ語、ヒンディー語では160時間、275時間、135時間のデータを使用し、タミル語、カンナダ語、ヒンディー語では13.94%、カナダ語では10.28%、27.24%の相対的な改善がなされている。
セノンマッピングに基づく訓練を施したmtdnnでは,タミル語,グジャラティ語,テルグ語では15.0%,17.54%,16.06%,mrsでは21.24%21.05%,タミル語,カンナダ語,ヒンディー語では30.17%の改善が見られた。
関連論文リスト
- Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Harnessing Transfer Learning from Swahili: Advancing Solutions for Comorian Dialects [0.0]
バントゥー語族に属する4つの言語や方言のグループであるComorianのためのNLP技術の先駆者を目指しています。
我々のアプローチは、人間が母国語と異なる言語をほとんど、あるいは全く使わずに理解できれば、このプロセスを機械でモデル化することは、完全に可能であるという仮説に動機付けられています。
論文 参考訳(メタデータ) (2024-12-09T22:47:41Z) - Predicting positive transfer for improved low-resource speech
recognition using acoustic pseudo-tokens [31.83988006684616]
我々は、ターゲット言語を、類似の高リソースの「ドナー」言語からのデータで補うことが役立つことを示す。
例えば、60時間ドナーのヒンディーが補充された低リソースのパンジャービの10時間のみの事前訓練は、70時間ドナーのパンジャービの70時間ドナーのほぼ同程度である。
論文 参考訳(メタデータ) (2024-02-03T23:54:03Z) - cantnlp@LT-EDI-2024: Automatic Detection of Anti-LGBTQ+ Hate Speech in
Under-resourced Languages [0.0]
本稿では,LT-EDI-2024における共有タスクの一環として開発されたソーシャルメディアコメント検出システムにおけるホモフォビア/トランスフォビアについて述べる。
10の言語条件に対するマルチクラス分類モデルを開発するために,トランスフォーマーに基づくアプローチを採用した。
我々は,ソーシャルメディア言語の言語的現実を反映させるために,ドメイン適応中にスクリプト変更言語データの合成および有機的インスタンスを導入した。
論文 参考訳(メタデータ) (2024-01-28T21:58:04Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。