論文の概要: Automatic Speech Recognition for Documenting Endangered Languages: Case Study of Ikema Miyakoan
- arxiv url: http://arxiv.org/abs/2603.26248v1
- Date: Fri, 27 Mar 2026 10:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.439322
- Title: Automatic Speech Recognition for Documenting Endangered Languages: Case Study of Ikema Miyakoan
- Title(参考訳): 絶滅危惧言語の自動音声認識:池間宮古庵を事例として
- Authors: Chihiro Taguchi, Yukinori Takubo, David Chiang,
- Abstract要約: 本研究は,沖縄県で話されている,重度の絶滅危惧言語である池間に焦点をあてる。
フィールド記録に基づく池間ASRシステムの開発について検討する。
- 参考スコア(独自算出の注目度): 10.694384623030771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language endangerment poses a major challenge to linguistic diversity worldwide, and technological advances have opened new avenues for documentation and revitalization. Among these, automatic speech recognition (ASR) has shown increasing potential to assist in the transcription of endangered language data. This study focuses on Ikema, a severely endangered Ryukyuan language spoken in Okinawa, Japan, with approximately 1,300 remaining speakers, most of whom are over 60 years old. We present an ongoing effort to develop an ASR system for Ikema based on field recordings. Specifically, we (1) construct a {\totaldatasethours}-hour speech corpus from field recordings, (2) train an ASR model that achieves a character error rate as low as 15\%, and (3) evaluate the impact of ASR assistance on the efficiency of speech transcription. Our results demonstrate that ASR integration can substantially reduce transcription time and cognitive load, offering a practical pathway toward scalable, technology-supported documentation of endangered languages.
- Abstract(参考訳): 言語絶滅は、世界中の言語多様性にとって大きな課題となり、技術進歩は文書化と再生のための新たな道を開いた。
これらのうち、自動音声認識(ASR)は、絶滅危惧言語データの転写を補助する可能性が高まっている。
本研究は, 沖縄県で話され, 約1,300人の話者が残っており, そのほとんどが60歳以上である, 重度の絶滅危惧言語である池間に焦点をあてる。
フィールド記録に基づく池間ASRシステムの開発について検討する。
具体的には、(1)フィールド記録から時間単位の音声コーパスを構築し、(2)文字誤り率を15倍に抑えるASRモデルを訓練し、(3)音声の書き起こし効率に対するASR支援の効果を評価する。
以上の結果から,ASR統合は転写時間と認知負荷を大幅に低減し,拡張性のある技術支援型言語ドキュメントへの実践的な経路を提供することができた。
関連論文リスト
- Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。
自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。
ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文 参考訳(メタデータ) (2025-11-12T19:48:09Z) - Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges [63.741916531380696]
CHiME-7と8つの遠隔音声認識(DASR)の課題は、多チャンネル、一般化可能、共同自動音声認識(ASR)、対話音声のダイアリゼーションである。
本稿では,参加者からの重要傾向を分析しつつ,課題の設計,評価指標,データセット,ベースラインシステムについて概説する。
論文 参考訳(メタデータ) (2025-07-24T07:56:24Z) - Supporting SENCOTEN Language Documentation Efforts with Automatic Speech Recognition [4.702636570667311]
バンクーバー島南部のサアニチ半島で話されているセノチェン語は、活発な言語再生の努力の最中である。
そこで本研究では,音声合成システムからの音声データを利用したASR駆動型文書パイプラインを提案する。
n-gram言語モデルは、利用可能なデータの使用を最大化するために、浅い融合やn-best復元によっても組み込まれている。
論文 参考訳(メタデータ) (2025-07-14T21:44:35Z) - From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition [14.155874873165853]
Speech Back-Translationは、大規模テキストコーパスを合成音声に変換することで、多言語ASRモデルを改善するスケーラブルなパイプラインである。
10言語で50,000時間以上の合成音声を生成し、Whisper-large-v3の事前学習を継続し、平均転写誤りを30%以上削減する。
論文 参考訳(メタデータ) (2025-05-22T17:51:05Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Speech Recognition for Endangered and Extinct Samoyedic languages [0.32228025627337864]
本研究では,絶滅危惧言語と絶滅危惧言語を用いた音声認識実験を行う。
私たちの知る限りでは、絶滅言語のために機能的なASRシステムが構築されたのはこれが初めてです。
論文 参考訳(メタデータ) (2020-12-09T21:41:40Z) - Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文 参考訳(メタデータ) (2020-05-19T07:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。