論文の概要: Automatic Speech Recognition in Sanskrit: A New Speech Corpus and
Modelling Insights
- arxiv url: http://arxiv.org/abs/2106.05852v1
- Date: Wed, 2 Jun 2021 18:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 14:01:45.013837
- Title: Automatic Speech Recognition in Sanskrit: A New Speech Corpus and
Modelling Insights
- Title(参考訳): サンスクリットにおける自動音声認識--新しい音声コーパスとモデリングインサイト
- Authors: Devaraja Adiga, Rishabh Kumar, Amrith Krishna, Preethi Jyothi, Ganesh
Ramakrishnan, Pawan Goyal
- Abstract要約: サンスクリット語で表現される言語的特徴を忠実に捉えた78時間のASRデータセットをリリースする。
単語中の1つの母音から次の母音への文字列をキャプチャする,音節レベルの単位選択にインスパイアされた新しいモデリング単位を提案する。
我々はこれらの知見をサンスクリットASRから拡張し、他の2つのIndic言語であるGujaratiとTeluguでASRシステムを構築する。
- 参考スコア(独自算出の注目度): 25.666767669695044
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic speech recognition (ASR) in Sanskrit is interesting, owing to the
various linguistic peculiarities present in the language. The Sanskrit language
is lexically productive, undergoes euphonic assimilation of phones at the word
boundaries and exhibits variations in spelling conventions and in
pronunciations. In this work, we propose the first large scale study of
automatic speech recognition (ASR) in Sanskrit, with an emphasis on the impact
of unit selection in Sanskrit ASR. In this work, we release a 78 hour ASR
dataset for Sanskrit, which faithfully captures several of the linguistic
characteristics expressed by the language. We investigate the role of different
acoustic model and language model units in ASR systems for Sanskrit. We also
propose a new modelling unit, inspired by the syllable level unit selection,
that captures character sequences from one vowel in the word to the next vowel.
We also highlight the importance of choosing graphemic representations for
Sanskrit and show the impact of this choice on word error rates (WER). Finally,
we extend these insights from Sanskrit ASR for building ASR systems in two
other Indic languages, Gujarati and Telugu. For both these languages, our
experimental results show that the use of phonetic based graphemic
representations in ASR results in performance improvements as compared to ASR
systems that use native scripts.
- Abstract(参考訳): サンスクリット語における自動音声認識(asr)は、言語に存在する様々な言語的特徴から興味深い。
サンスクリット語は語彙的に生産的であり、単語境界における電話の音素同化を行い、綴りの慣習や発音のバリエーションを示す。
本研究では,サンスクリットasrにおける単位選択の影響に着目し,サンスクリットにおける自動音声認識(asr)に関する最初の大規模研究を提案する。
そこで本研究では,サンスクリット語で表現される言語的特徴のいくつかを忠実に捉えた78時間のasrデータセットをリリースする。
サンスクリットにおけるASRシステムにおける異なる音響モデルと言語モデルユニットの役割について検討する。
また、単語中の1つの母音から次の母音への文字列をキャプチャする音節レベルの単位選択にインスパイアされた新しいモデリング単位を提案する。
また、サンスクリットにおけるグラフ表現の選択の重要性を強調し、この選択が単語誤り率(WER)に与える影響を示す。
最後に、これらの知見をSanskrit ASRから拡張し、他の2つのIndic言語であるGujaratiとTeluguでASRシステムを構築する。
いずれの言語においても,asrにおける音韻ベースのグラフ表現の使用は,ネイティブスクリプトを使用するasrシステムと比較して性能が向上することを示す実験結果が得られた。
関連論文リスト
- Literary and Colloquial Dialect Identification for Tamil using Acoustic Features [0.0]
音声技術は、言語の様々な方言が絶滅しないようにする役割を担っている。
現在の研究は、人気のある2つのタミル方言と広く分類されたタミル方言を識別する方法を提案する。
論文 参考訳(メタデータ) (2024-08-27T09:00:27Z) - LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。
LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。
異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文 参考訳(メタデータ) (2024-08-21T08:51:00Z) - Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition [26.693942793501204]
エンドツーエンド自動音声キーワード認識(SKR)のための新しい言語・ユニバーサルアプローチを提案する。
Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。
訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。
論文 参考訳(メタデータ) (2024-06-04T16:59:11Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。