論文の概要: BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language
- arxiv url: http://arxiv.org/abs/2606.03504v2
- Date: Wed, 10 Jun 2026 09:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.311159
- Title: BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language
- Title(参考訳): BaltiVoice:Balti言語のための音声コーパスと微調整Whisper ASRシステム
- Authors: Muhammad Ali,
- Abstract要約: パキスタンのギルギット・バルチスタンで話されているチベット語であるバルティ語(ISO 639-3: bft)の16.8時間の読み上げ音声コーパスであるバルティヴォイスについて紹介する。
コーパスには、Mozilla Common Voiceの録音から派生したネイティブなNastaliqスクリプトで10,060の検証された発話が含まれている。
微調整されたOpenAIウィスパー小文字は単語誤り率(WER)が26.74%、文字誤り率(CER)が8.67%である。
- 参考スコア(独自算出の注目度): 0.20771014670599888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BaltiVoice, a 16.8-hour read-speech corpus for Balti (ISO 639-3: bft), a Tibetic language spoken in Gilgit-Baltistan, Pakistan, with no prior publicly available ASR resources. The corpus contains 10,060 validated utterances in native Nastaliq script, derived from Mozilla Common Voice recordings. Fine-tuning OpenAI Whisper-small yields a Word Error Rate (WER) of 26.74% and a Character Error Rate (CER) of 8.67% on a 538-utterance speaker-disjoint validation set, down from a zero-shot baseline of 159.19% WER and 152.52% CER. A Whisper-base fine-tuned on the same data achieves 44.54% WER and 15.61% CER, confirming that model capacity matters for this low-resource setting. The dataset, fine-tuned model, and a live transcription demo are publicly available on HuggingFace.
- Abstract(参考訳): パキスタンのギルギット・バルチスタンで話されているチベット語であるバルティ語(ISO 639-3: bft)の16.8時間の読み上げ音声コーパスであるバルティヴォイスについて紹介する。
コーパスには、Mozilla Common Voiceの録音から派生したネイティブなNastaliqスクリプトで10,060の検証された発話が含まれている。
微調整されたOpenAIウィスパー小はワード誤り率(WER)26.74%、文字誤り率(CER)8.67%を538発の話者不一致検証セットで得、ゼロショットベースラインは159.19%、CERは152.52%である。
同じデータに基づいて微調整されたウィスパーベースでは、WERが44.54%、CERが15.61%に達し、この低リソース環境ではモデル容量が重要であることを確認した。
データセット、微調整されたモデル、ライブの書き起こしデモは、HuggingFaceで公開されている。
関連論文リスト
- PashtoTTS-Bench: automated screening for low-resource non-Latin-script text-to-speech [0.0]
単一ASRラウンドトリップ単語誤り率(WER)に依存する低リソース非ラテン文字言語に対するテキスト音声による評価は失敗する可能性がある
これらのケースを分離するレポートフレームワークであるINSVを紹介します。
我々は、Pashto TTSのベンチマークであるPashtoTTS-BenchとしてINSV-Aをインスタンス化する。
論文 参考訳(メタデータ) (2026-05-26T13:03:20Z) - Pashto Common Voice: Building the First Open Speech Corpus for a 60-Million-Speaker Low-Resource Language [0.0]
Pashto Common Voice corpus - Pashtoの最初の大規模かつオープンにライセンスされた音声リソース。
2022年から2025年にかけて行われたコミュニティの取り組みを通じて、コーパスは1.5時間と5人のコントリビュータから147時間、ユニークなスピーカーは1,483人まで成長した。
話者参加はCV17とCV18の間で約108倍に増加し、VOA Pashtoの放送キャンペーンと一致した。
論文 参考訳(メタデータ) (2026-03-27T22:22:03Z) - The ML-SUPERB 2.0 Challenge: Towards Inclusive ASR Benchmarking for All Language Varieties [107.57160730151975]
我々は200以上の言語、アクセント、方言のデータからなる新しいテストスイートを構築し、SOTA多言語音声モデルを評価する。
その結果, LIDの精度は23%, CERは18%向上した。
アクセントと方言のデータでは、最も良い提出は30.2%低いCERと15.7%高いLIDの精度を得た。
論文 参考訳(メタデータ) (2025-09-08T18:42:36Z) - Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition Evaluation [0.8929537856623965]
ブラジルポルトガル語の自発音声コーパスについて紹介する。
本稿では,Wav2Vec2-XLSR-53モデルとDistil-Whisperモデルを用いて,予備的な自動音声認識(ASR)結果について報告する。
私たちの知る限りでは、ポルトガルのASRタスクに捧げられた最初の大規模パウリスターノアクセントによる自然発声コーパスである。
論文 参考訳(メタデータ) (2024-09-10T21:45:06Z) - ÌròyìnSpeech: A multi-purpose Yorùbá Speech Corpus [7.97238074132292]
IroyinSpeechは、高品質で現代のヨルブの音声データの量を増やしたいという願望に影響された新しいコーパスである。
オープン・ライセンスCC-BY-4.0でニュース・クリエイティブ・ライティング・ドメインから約23,000のテキストをキュレートした。
論文 参考訳(メタデータ) (2023-07-29T20:42:50Z) - Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale [58.46845567087977]
Voiceboxは、大規模音声のための最も多用途なテキスト誘導生成モデルである。
モノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用できる。
最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%のワードエラー率)とオーディオの類似性(0.580対0.681)は20倍高速である。
論文 参考訳(メタデータ) (2023-06-23T16:23:24Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech
Recognition Baseline [4.521450956414864]
カザフ語コーパス(KSC)は、様々な地域や年齢集団の参加者によって話される153,000以上の発声を含む約332時間の音声を含む。
KSCは、様々なカザフ語音声および言語処理アプリケーションを前進させるために開発された、最大の公開データベースである。
論文 参考訳(メタデータ) (2020-09-22T05:57:15Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。