論文の概要: Supporting SENCOTEN Language Documentation Efforts with Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2507.10827v2
- Date: Sun, 20 Jul 2025 14:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 12:28:43.139975
- Title: Supporting SENCOTEN Language Documentation Efforts with Automatic Speech Recognition
- Title(参考訳): 音声認識によるSENCOTEN言語文書作成支援
- Authors: Mengzhe Geng, Patrick Littell, Aidan Pine, PENÁĆ, Marc Tessier, Roland Kuhn,
- Abstract要約: バンクーバー島南部のサアニチ半島で話されているセノチェン語は、活発な言語再生の努力の最中である。
そこで本研究では,音声合成システムからの音声データを利用したASR駆動型文書パイプラインを提案する。
n-gram言語モデルは、利用可能なデータの使用を最大化するために、浅い融合やn-best復元によっても組み込まれている。
- 参考スコア(独自算出の注目度): 4.702636570667311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The SENCOTEN language, spoken on the Saanich peninsula of southern Vancouver Island, is in the midst of vigorous language revitalization efforts to turn the tide of language loss as a result of colonial language policies. To support these on-the-ground efforts, the community is turning to digital technology. Automatic Speech Recognition (ASR) technology holds great promise for accelerating language documentation and the creation of educational resources. However, developing ASR systems for SENCOTEN is challenging due to limited data and significant vocabulary variation from its polysynthetic structure and stress-driven metathesis. To address these challenges, we propose an ASR-driven documentation pipeline that leverages augmented speech data from a text-to-speech (TTS) system and cross-lingual transfer learning with Speech Foundation Models (SFMs). An n-gram language model is also incorporated via shallow fusion or n-best restoring to maximize the use of available data. Experiments on the SENCOTEN dataset show a word error rate (WER) of 19.34% and a character error rate (CER) of 5.09% on the test set with a 57.02% out-of-vocabulary (OOV) rate. After filtering minor cedilla-related errors, WER improves to 14.32% (26.48% on unseen words) and CER to 3.45%, demonstrating the potential of our ASR-driven pipeline to support SENCOTEN language documentation.
- Abstract(参考訳): バンクーバー島南部のサアニチ半島で話されているセノチェン語は、植民地語政策の結果として言語喪失の潮流を転換する活発な言語再生努力の最中である。
こうした現場での取り組みをサポートするため、コミュニティはデジタル技術に目を向けている。
自動音声認識(ASR)技術は、言語ドキュメントの高速化と教育資源の創出を大いに約束している。
しかし、SENCOTENのためのASRシステムの開発は、その多合成構造とストレス駆動メタセシスからの限られたデータと大きな語彙変化のために困難である。
これらの課題に対処するために,テキスト音声(TTS)システムと音声基礎モデル(SFM)を用いた言語間変換学習を併用したASR駆動型文書パイプラインを提案する。
n-gram言語モデルは、利用可能なデータの使用を最大化するために、浅い融合やn-best復元によっても組み込まれている。
SENCOTENデータセットの実験では、単語エラー率(WER)は19.34%、文字エラー率(CER)は57.02%、語彙外レート(OOV)は5.09%であった。
マイナーなスギラ関連のエラーをフィルタリングした後、WERは14.32%(未確認語で26.48%)とCERを3.45%に改善し、SENCOTEN言語ドキュメントをサポートするASR駆動パイプラインの可能性を実証した。
関連論文リスト
- ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams [16.172599163455693]
言語や地理的に関連のある言語からの高品質なデータを活用して、ターゲット言語のためのTSを改善する。
第2に,非スタディオ環境で記録された低品質自動音声認識(ASR)データを利用する。
第3に、より堅牢な出力を生成するために、合成データを用いた大規模モデルからの知識蒸留を適用する。
論文 参考訳(メタデータ) (2024-10-23T14:18:25Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Synth4Kws: Synthesized Speech for User Defined Keyword Spotting in Low Resource Environments [8.103855990028842]
テキスト・トゥ・スピーチ(TTS)合成データをカスタムKWSに活用するフレームワークであるSynth4Kwsを紹介する。
TTSフレーズの多様性が増大し,発話サンプリングが単調にモデル性能を向上することがわかった。
我々の実験は英語と単一単語の発話に基づいているが、この結果はi18n言語に一般化されている。
論文 参考訳(メタデータ) (2024-07-23T21:05:44Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation [20.45373308116162]
この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
論文 参考訳(メタデータ) (2023-05-18T13:20:38Z) - Maestro-U: Leveraging joint speech-text representation learning for zero
supervised speech ASR [39.59611707268663]
モーダリティマッチングされた共同音声とテキストモデルを用いて、言語によっては教師付き音声を使わずに、膨大な多言語ASRモデルを訓練できることを示す。
Maestro-Uは,グラフの重なりに制限がある場合にも,教師付き音声言語からの知識伝達を促進することができることを示す。
論文 参考訳(メタデータ) (2022-10-18T17:50:31Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Transfer Learning based Speech Affect Recognition in Urdu [0.0]
高リソース言語のモデルが認識タスクに与える影響を事前学習し、低リソース言語のパラメータを微調整する。
このアプローチは、既存のアルゴリズムと比較して高いUnweighted Average Recall(UAR)を実現する。
論文 参考訳(メタデータ) (2021-03-05T10:30:58Z) - Speech Recognition for Endangered and Extinct Samoyedic languages [0.32228025627337864]
本研究では,絶滅危惧言語と絶滅危惧言語を用いた音声認識実験を行う。
私たちの知る限りでは、絶滅言語のために機能的なASRシステムが構築されたのはこれが初めてです。
論文 参考訳(メタデータ) (2020-12-09T21:41:40Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。