論文の概要: How I Built ASR for Endangered Languages with a Spoken Dictionary
- arxiv url: http://arxiv.org/abs/2510.04832v1
- Date: Mon, 06 Oct 2025 14:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.891762
- Title: How I Built ASR for Endangered Languages with a Spoken Dictionary
- Title(参考訳): 音声辞書を用いた絶滅危惧言語のためのASR構築法
- Authors: Christopher Bartley, Anton Ragni,
- Abstract要約: 音声認識などの音声技術は、復興努力の中心である。
ほとんどの言語は、標準パイプラインが発話レベルの教師付きデータを期待しているため、まだサポートされていない。
ショートフォーム発音リソースが有効な代替手段であることを示す。
- 参考スコア(独自算出の注目度): 9.067295328722569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nearly half of the world's languages are endangered. Speech technologies such as Automatic Speech Recognition (ASR) are central to revival efforts, yet most languages remain unsupported because standard pipelines expect utterance-level supervised data. Speech data often exist for endangered languages but rarely match these formats. Manx Gaelic ($\sim$2,200 speakers), for example, has had transcribed speech since 1948, yet remains unsupported by modern systems. In this paper, we explore how little data, and in what form, is needed to build ASR for critically endangered languages. We show that a short-form pronunciation resource is a viable alternative, and that 40 minutes of such data produces usable ASR for Manx ($<$50\% WER). We replicate our approach, applying it to Cornish ($\sim$600 speakers), another critically endangered language. Results show that the barrier to entry, in quantity and form, is far lower than previously thought, giving hope to endangered language communities that cannot afford to meet the requirements arbitrarily imposed upon them.
- Abstract(参考訳): 世界の言語の半分近くが絶滅危惧種である。
音声認識(ASR)のような音声技術は、復活の努力の中心であるが、標準パイプラインが発話レベルの教師付きデータを期待しているため、ほとんどの言語はサポートされていない。
音声データはしばしば絶滅危惧言語に対して存在するが、これらの形式と一致することは滅多にない。
例えば、マンクス・ゲーリック(英語版)(2,200ドル)は1948年から音声の書き起こしを行ってきたが、現代のシステムでは依然として支持されている。
本稿では、危惧言語のためのASRを構築するために、データの少なさ、そしてどのような形式が必要かを検討する。
ショートフォームの発音リソースが有効な代替手段であることを示し、40分でManxのASR($50\% WER)が生成されることを示した。
われわれのアプローチを再現し、それをCornish(600ドル)のスピーカーに適用する。
その結果, 入力障壁は, 従来考えられていたよりもはるかに低く, 任意に課せられる要件を満たすことができない言語コミュニティに対して, 危険を冒すことが期待できることがわかった。
関連論文リスト
- Model Adaptation for ASR in low-resource Indian Languages [28.02064068964355]
近年,wav2vec2のような自己教師付き学習(SSL)ベースの音響モデルとWhisperのような大規模多言語学習によって,音声認識(ASR)の性能が大幅に向上している。
オーディオとテキストの両方の可用性が制限されている低リソース言語には、依然として大きな課題があります。
ここで多くの適応と微調整のテクニックが適用され、十分なリソースを持つ類似言語を利用することで、データの低リソースの性質を克服できるのです。
言語における音響データの豊富さによって、大きなテキストのみのコーパスの必要性が軽減される場合もあります。
論文 参考訳(メタデータ) (2023-07-16T05:25:51Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource
Languages [0.6193838300896449]
我々は、低リソースの北インドの言語で聖書の音声録音をオープンライセンスでフォーマットしたデータセットをリリースする。
我々は、複数の実験分割を設定し、このデータを用いて将来の研究のベースラインとなる2つの競合ASRモデルを訓練し、分析する。
論文 参考訳(メタデータ) (2022-06-01T18:22:01Z) - Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。
まず、40言語を対象に、17,000時間の生音声データをキュレートする。
この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-11-06T19:34:33Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。