論文の概要: Model Adaptation for ASR in low-resource Indian Languages
- arxiv url: http://arxiv.org/abs/2307.07948v1
- Date: Sun, 16 Jul 2023 05:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 16:51:38.253372
- Title: Model Adaptation for ASR in low-resource Indian Languages
- Title(参考訳): 低リソースインド言語におけるASRのモデル適応
- Authors: Abhayjeet Singh, Arjun Singh Mehta, Ashish Khuraishi K S, Deekshitha
G, Gauri Date, Jai Nanavati, Jesuraja Bandekar, Karnalius Basumatary,
Karthika P, Sandhya Badiger, Sathvik Udupa, Saurabh Kumar, Savitha, Prasanta
Kumar Ghosh, Prashanthi V, Priyanka Pai, Raoul Nanavati, Rohan Saxena, Sai
Praneeth Reddy Mora, Srinivasa Raghavan
- Abstract要約: 近年,wav2vec2のような自己教師付き学習(SSL)ベースの音響モデルとWhisperのような大規模多言語学習によって,音声認識(ASR)の性能が大幅に向上している。
オーディオとテキストの両方の可用性が制限されている低リソース言語には、依然として大きな課題があります。
ここで多くの適応と微調整のテクニックが適用され、十分なリソースを持つ類似言語を利用することで、データの低リソースの性質を克服できるのです。
言語における音響データの豊富さによって、大きなテキストのみのコーパスの必要性が軽減される場合もあります。
- 参考スコア(独自算出の注目度): 28.02064068964355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) performance has improved drastically in
recent years, mainly enabled by self-supervised learning (SSL) based acoustic
models such as wav2vec2 and large-scale multi-lingual training like Whisper. A
huge challenge still exists for low-resource languages where the availability
of both audio and text is limited. This is further complicated by the presence
of multiple dialects like in Indian languages. However, many Indian languages
can be grouped into the same families and share the same script and grammatical
structure. This is where a lot of adaptation and fine-tuning techniques can be
applied to overcome the low-resource nature of the data by utilising
well-resourced similar languages.
In such scenarios, it is important to understand the extent to which each
modality, like acoustics and text, is important in building a reliable ASR. It
could be the case that an abundance of acoustic data in a language reduces the
need for large text-only corpora. Or, due to the availability of various
pretrained acoustic models, the vice-versa could also be true. In this proposed
special session, we encourage the community to explore these ideas with the
data in two low-resource Indian languages of Bengali and Bhojpuri. These
approaches are not limited to Indian languages, the solutions are potentially
applicable to various languages spoken around the world.
- Abstract(参考訳): 近年,wav2vec2のような自己教師付き学習(SSL)ベースの音響モデルとWhisperのような大規模多言語学習によって,音声認識(ASR)の性能が大幅に向上している。
音声とテキストの両方の可用性が制限されている低リソース言語には、依然として大きな課題がある。
これはインド語のような複数の方言の存在によってさらに複雑である。
しかし、多くのインドの言語は、同じ家族に分けて、同じ文字と文法構造を共有することができる。
ここで多くの適応と微調整のテクニックが適用され、十分なリソースを持つ類似言語を利用することで、データの低リソースの性質を克服できるのです。
このようなシナリオでは、音響やテキストなどの各モードが、信頼できるASRを構築する上で重要であるかを理解することが重要である。
言語内の音響データが豊富にあると、大きなテキストのみのコーパスの必要性が減る可能性がある。
あるいは、様々な事前訓練された音響モデルが利用できるため、逆もまた正しいかもしれない。
提案する特別セッションでは,ベンガル語とボージュリ語の2つの低リソースインド語言語を用いて,これらのアイデアをコミュニティが探求することを推奨する。
これらのアプローチはインドの言語に限らず、世界中の様々な言語に適用できる可能性がある。
関連論文リスト
- Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Language-universal phonetic encoder for low-resource speech recognition [28.21805271848413]
我々は、低リソースのASR性能を改善するために、International Phonetic Alphabet (IPA) ベースの言語ユニバーサル音声モデルを活用する。
我々のアプローチと適応は、ドメインや言語ミスマッチしたシナリオであっても、極端に低リソースな言語に有効です。
論文 参考訳(メタデータ) (2023-05-19T10:24:30Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。
まず、40言語を対象に、17,000時間の生音声データをキュレートする。
この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-11-06T19:34:33Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。