論文の概要: Speech Recognition for Endangered and Extinct Samoyedic languages
- arxiv url: http://arxiv.org/abs/2012.05331v1
- Date: Wed, 9 Dec 2020 21:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:05:17.423478
- Title: Speech Recognition for Endangered and Extinct Samoyedic languages
- Title(参考訳): 絶滅危惧言語と絶滅危惧言語に対する音声認識
- Authors: Niko Partanen, Mika H\"am\"al\"ainen, Tiina Klooster
- Abstract要約: 本研究では,絶滅危惧言語と絶滅危惧言語を用いた音声認識実験を行う。
私たちの知る限りでは、絶滅言語のために機能的なASRシステムが構築されたのはこれが初めてです。
- 参考スコア(独自算出の注目度): 0.32228025627337864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Our study presents a series of experiments on speech recognition with
endangered and extinct Samoyedic languages, spoken in Northern and Southern
Siberia. To best of our knowledge, this is the first time a functional ASR
system is built for an extinct language. We achieve with Kamas language a Label
Error Rate of 15\%, and conclude through careful error analysis that this
quality is already very useful as a starting point for refined human
transcriptions. Our results with related Nganasan language are more modest,
with best model having the error rate of 33\%. We show, however, through
experiments where Kamas training data is enlarged incrementally, that Nganasan
results are in line with what is expected under low-resource circumstances of
the language. Based on this, we provide recommendations for scenarios in which
further language documentation or archive processing activities could benefit
from modern ASR technology. All training data and processing scripts haven been
published on Zenodo with clear licences to ensure further work in this
important topic.
- Abstract(参考訳): 本研究は,シベリア北部と南部で話されている絶滅危惧・絶滅したサモイェド諸語を用いた音声認識実験である。
私たちの知る限りでは、機能的なASRシステムが絶滅した言語のために構築されたのはこれが初めてです。
kamas言語では15\%のラベル誤り率を達成し、この品質は既に洗練された人間の転写の出発点として非常に有用であると注意深いエラー分析によって結論づける。
関連言語であるNganasanの結果はより控えめであり,エラー率33\%の最良のモデルである。
しかしながら,Kamasのトレーニングデータが漸進的に拡大される実験を通して,Nganasanの結果は低リソース環境下で期待される結果と一致していることを示す。
これに基づいて、言語ドキュメントやアーカイブ処理アクティビティが現代的なasr技術から恩恵を受けるシナリオを推奨する。
すべてのトレーニングデータと処理スクリプトが、この重要なトピックにおけるさらなる作業を保証するために、明確なライセンス付きでZenodoに公開された。
関連論文リスト
- Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text [22.19230427358921]
表現不足の言語でWhisperのパフォーマンスを改善する方法について研究する価値がある。
我々は、アクセシブル・アンペア音声とテキストデータを利用し、言語モデルGPTとカザフ語Whisperを組み合わせた。
複数の実験で10%以上の絶対WER削減を達成した。
論文 参考訳(メタデータ) (2024-08-10T13:39:13Z) - Killkan: The Automatic Speech Recognition Dataset for Kichwa with Morphosyntactic Information [8.099700053397278]
本稿では,エクアドル原住民の言語であるキチワ語における自動音声認識(ASR)のための最初のデータセットであるキルカンについて述べる。
このデータセットは、スペイン語への翻訳と、Universal Dependenciesの形式でのモルフォシンタクティックアノテーションを含む約4時間の音声を含む。
実験の結果、データセットのサイズが小さいにもかかわらず、信頼性の高い品質で、データセットが最初のASRシステムの開発を可能にすることが示された。
論文 参考訳(メタデータ) (2024-04-23T20:26:07Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。