論文の概要: Nwāchā Munā: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR
- arxiv url: http://arxiv.org/abs/2603.07554v1
- Date: Sun, 08 Mar 2026 09:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.80293
- Title: Nwāchā Munā: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR
- Title(参考訳): Nwāchā Munā:Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR
- Authors: Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal,
- Abstract要約: 我々は,ネパール・バシャで手書きのデバナガリ音声コーパスを手書きした5.39時間新たに作成したNwch Munを紹介する。
スクリプト保存アノテート・アノテート・アコースティック・モデリングを用いた最初のベンチマークを構築した。
- 参考スコア(独自算出の注目度): 0.9918851323801791
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Nepal Bhasha (Newari), an endangered language of the Kathmandu Valley, remains digitally marginalized due to the severe scarcity of annotated speech resources. In this work, we introduce Nwāchā Munā, a newly curated 5.39-hour manually transcribed Devanagari speech corpus for Nepal Bhasha, and establish the first benchmark using script-preserving acoustic modeling. We investigate whether proximal cross-lingual transfer from a geographically and linguistically adjacent language (Nepali) can rival large-scale multilingual pretraining in an ultra-low-resource Automatic Speech Recognition (ASR) setting. Fine-tuning a Nepali Conformer model reduces the Character Error Rate (CER) from a 52.54% zero-shot baseline to 17.59% with data augmentation, effectively matching the performance of the multilingual Whisper-Small model despite utilizing significantly fewer parameters. Our findings demonstrate that proximal transfer within South Asian language clusters serves as a computationally efficient alternative to massive multilingual models. We openly release the dataset and benchmarks to digitally enable the Newari community and foster further research in Nepal Bhasha.
- Abstract(参考訳): ネパール・バシャ(ニューアリ語)はカトマンズ・バレーの絶滅危惧言語であり、注釈付き音声資源の不足によりデジタル的に疎外されている。
本研究では,ネパール・バシャで5.39時間で書き起こされた手書きのデバナガリ音声コーパスであるNwāchā Munāを紹介し,スクリプト保存音響モデルを用いた最初のベンチマークを確立する。
地理的・言語的に隣接した言語(Nepali)からの近位言語間移動が,超低リソース自動音声認識(ASR)における大規模多言語事前学習と競合するかどうかを検討する。
ネパールのコンフォーマーモデルの微調整により、文字誤り率(CER)は52.54%のゼロショットベースラインから17.59%に減少し、パラメータが大幅に少ないにもかかわらず、多言語Whisper-Smallモデルの性能と効果的に一致する。
本研究は,南アジアの言語クラスタ内での近位移動が,大規模多言語モデルの計算的代替となることを示す。
我々はオープンにデータセットとベンチマークを公開し、ニューアリのコミュニティをデジタル化し、ネパールのバシャでさらなる研究を促進する。
関連論文リスト
- Simultaneous Speech-to-Speech Translation Without Aligned Data [52.467808474293605]
同時音声翻訳では、ソース音声を対象言語にリアルタイムで翻訳する必要がある。
単語レベルのアライメントを完全に不要にするヒビキゼロを提案する。
Hibiki-Zeroは5つのX-英語タスクの翻訳精度、レイテンシ、音声転送、自然性において最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T17:41:01Z) - DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation [111.94720088481614]
多モーダル生成モデルは方言テキスト入力を効果的に生成できるのか?
6つの共通英語方言にまたがる大規模ベンチマークを構築した。
マルチモーダル生成モデルのための一般的なエンコーダに基づく緩和戦略を設計する。
論文 参考訳(メタデータ) (2025-10-16T17:56:55Z) - Exploring Cross-Lingual Knowledge Transfer via Transliteration-Based MLM Fine-Tuning for Critically Low-resource Chakma Language [1.4206084598312039]
限られたデータしか持たないインド・アーリア語として、チャクマは言語モデルにおいてほとんど表現されていない。
本稿では,チャクマ文学からキュレートされ,母語話者によって検証された,文脈的にコヒーレントなバングラ文字翻訳チャクマの新たなコーパスを紹介する。
実験により、微調整された多言語モデルは、バングラ文字のチャクマに適応する際、事前訓練されたモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-10-10T06:07:14Z) - Development of Pre-Trained Transformer-based Models for the Nepali Language [0.0]
全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。
ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。
我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクで既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-11-24T06:38:24Z) - Abstractive Summarization of Low resourced Nepali language using Multilingual Transformers [0.0]
この研究は、まずWebスクレイピングを通じて要約データセットを作成することによって、ネパールのテキストの要約に関連する重要な課題に対処する。
次に、ROUGEスコアと人的評価を用いて、微調整モデルの性能を評価した。
LoRAモデルを用いた4ビット量子化mBARTは、より優れたネパールのニュースの見出しを生成するのに有効であることが判明した。
論文 参考訳(メタデータ) (2024-09-29T05:58:27Z) - Low-Resource Counterspeech Generation for Indic Languages: The Case of
Bengali and Hindi [11.117463901375602]
私たちはBengaliやHindiといった低リソース言語のギャップを埋めています。
我々は5,062人の虐待的音声/音声ペアのベンチマークデータセットを作成する。
モノリンガル設定が最高のパフォーマンスをもたらすことを観察する。
論文 参考訳(メタデータ) (2024-02-11T18:09:50Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。