論文の概要: Kunnafonidilaw ka Cadeau: an ASR dataset of present-day Bambara
- arxiv url: http://arxiv.org/abs/2512.19400v1
- Date: Mon, 22 Dec 2025 13:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.777184
- Title: Kunnafonidilaw ka Cadeau: an ASR dataset of present-day Bambara
- Title(参考訳): Kunnafonidilaw ka Cadeau:現在のバンバラのASRデータセット
- Authors: Yacouba Diarra, Panga Azazia Kamate, Nouhoum Souleymane Coulibaly, Michael Leventhal,
- Abstract要約: クンカド (Kunkado) は、マリの無線アーカイブから収集された160時間のBambara ASRデータセットである。
コードスイッチ、ノイズ、バックグラウンドノイズ、実際のASRシステムが現実世界で遭遇する重複スピーカーなどが含まれる。
- 参考スコア(独自算出の注目度): 0.7999703756441755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Kunkado, a 160-hour Bambara ASR dataset compiled from Malian radio archives to capture present-day spontaneous speech across a wide range of topics. It includes code-switching, disfluencies, background noise, and overlapping speakers that practical ASR systems encounter in real-world use. We finetuned Parakeet-based models on a 33.47-hour human-reviewed subset and apply pragmatic transcript normalization to reduce variability in number formatting, tags, and code-switching annotations. Evaluated on two real-world test sets, finetuning with Kunkado reduces WER from 44.47\% to 37.12\% on one and from 36.07\% to 32.33\% on the other. In human evaluation, the resulting model also outperforms a comparable system with the same architecture trained on 98 hours of cleaner, less realistic speech. We release the data and models to support robust ASR for predominantly oral languages.
- Abstract(参考訳): 本稿は,マリのラジオアーカイブから収集した160時間のBambara ASRデータセットであるKunkadoについて紹介する。
コードスイッチ、ノイズ、バックグラウンドノイズ、実際のASRシステムが現実世界で遭遇する重複スピーカーなどが含まれる。
我々は、33.47時間の人間レビューされたサブセット上でParakeetベースのモデルを微調整し、数値フォーマッティング、タグ、コードスイッチングアノテーションのばらつきを軽減するために、実用的書き起こし正規化を適用した。
実世界の2つのテストセットで評価され、クンカドによる微調整によりWERは44.47\%から37.12\%に減少し、他方では36.07\%から32.33\%に低下する。
人間の評価では、結果のモデルは98時間のクリーンで現実的でない音声でトレーニングされたのと同じアーキテクチャで、同等のシステムよりも優れています。
主に口頭言語で堅牢なASRをサポートするためのデータとモデルをリリースする。
関連論文リスト
- How much speech data is necessary for ASR in African languages? An evaluation of data scaling in Kinyarwanda and Kikuyu [0.5678475267829229]
低リソースアフリカ語の自動音声認識システムの開発は, 音声データに制限があるため, 依然として困難である。
OpenAIのWhisperのような大規模多言語モデルの最近の進歩は、低リソースのASR開発に有望な経路を提供する。
2つのバントゥー言語に対する包括的実験によりWhisperの性能を評価する。
論文 参考訳(メタデータ) (2025-10-08T16:55:28Z) - Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - One Whisper to Grade Them All [10.035434464829958]
複数部からなる第2言語テストの総合的自動発話評価(ASA)に対して,効率的なエンドツーエンドアプローチを提案する。
我々のシステムの主な特徴は、4つの音声応答を1つのWhisper小エンコーダで処理できることである。
このアーキテクチャは、書き起こしや部品ごとのモデルの必要性を排除し、推論時間を短縮し、ASAを大規模コンピュータ支援型言語学習システムに活用する。
論文 参考訳(メタデータ) (2025-07-23T20:31:40Z) - Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。
ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。
我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文 参考訳(メタデータ) (2024-11-19T15:55:56Z) - Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。