論文の概要: Building Community-Centred NLP Resources for Puno Quechua
- arxiv url: http://arxiv.org/abs/2605.28253v1
- Date: Wed, 27 May 2026 10:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.955171
- Title: Building Community-Centred NLP Resources for Puno Quechua
- Title(参考訳): Puno Quechuaのためのコミュニティ中心NLPリソースの構築
- Authors: Elwin Huaman, Adrian Gamarra Lafuente, Johanna Cordova, Anna Korhonen,
- Abstract要約: 我々はPuno Quechua(ISO 639-3: qxp)のためのASRリソースを初めて提示する。
ケチュア語で最大の音声コーパスは、台詞と自発音声のための66時間の録音である。
Puno Quechuaの最初の体系的なASRベンチマークでは、最先端のモデルと微調整のWhisper-base、wav2vec2-base、XLS-R-300Mが評価された。
- 参考スコア(独自算出の注目度): 24.30113038803911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The preservation of under-resourced languages requires digital tools and resources shaped by and for their speakers. We present the first dedicated ASR resources for Puno Quechua (ISO 639-3: qxp): (1) the largest speech corpus for any single Quechua variety, consisting in 66 hours of recordings for scripted and spontaneous speech (including 36 hours of manually transcribed and validated data), collected via a participatory design campaign; (2) the first systematic ASR benchmark for Puno Quechua, evaluating state-of-the-art models and fine-tuning Whisper-base, wav2vec2-base, and XLS-R-300M, with and without continued pre-training (CPT); (3) an open release of all datasets and fine-tuned models.
- Abstract(参考訳): リソース不足の言語の保存には、デジタルツールと彼らの話者によって形作られたリソースが必要である。
本研究は,Puno Quechua(ISO 639-3: qxp):(1)スクリプト音声と自発音声の66時間記録(36時間手書き音声と検証データを含む)からなる1つのケチュア品種における最大の音声コーパス,(2)最新技術モデルと微調整Whisper-base,wav2vec2-base,XLS-R-300Mの評価を行うPuno Quechua(Puno Quechua)のための最初の体系的ASRベンチマーク,(3)事前学習(CPT)を継続せずに公開する。
関連論文リスト
- Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens [62.56027815951259]
現在のオーディオ言語モデルは、主にテキストファーストであり、事前訓練されたテキストLLMバックボーンを拡張するか、意味のみのオーディオトークンに依存する。
本稿では,大規模音声に次トーケン予測を適用したネイティブオーディオ基礎モデルの系統的研究を行った。
論文 参考訳(メタデータ) (2026-02-18T18:32:46Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - Quechua Speech Datasets in Common Voice: The Case of Puno Quechua [0.0]
Quechuasのようなアンダーリソース言語は、データとリソース不足に直面している。
本稿では,ケチュア語の共通音声への統合について検討する。
論文 参考訳(メタデータ) (2025-10-13T12:44:17Z) - SloPalSpeech: A 2,8000-Hour Slovak Speech Corpus from Parliamentary Data [0.00954904463032233]
SloPalSpeechは、議会手続きから2,806時間のスピーチを含む大規模なスロバキアのASRデータセットである。
このデータセットを使用して、いくつかのOpenAI Whisperモデルを微調整します。
低音源音声認識における将来の研究を促進するため、我々はSloPalSpeechデータセットを公開している。
論文 参考訳(メタデータ) (2025-09-23T17:33:57Z) - One Whisper to Grade Them All [10.035434464829958]
複数部からなる第2言語テストの総合的自動発話評価(ASA)に対して,効率的なエンドツーエンドアプローチを提案する。
我々のシステムの主な特徴は、4つの音声応答を1つのWhisper小エンコーダで処理できることである。
このアーキテクチャは、書き起こしや部品ごとのモデルの必要性を排除し、推論時間を短縮し、ASAを大規模コンピュータ支援型言語学習システムに活用する。
論文 参考訳(メタデータ) (2025-07-23T20:31:40Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。