論文の概要: FLEURS-Kobani: Extending the FLEURS Dataset for Northern Kurdish
- arxiv url: http://arxiv.org/abs/2603.29892v1
- Date: Tue, 31 Mar 2026 15:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.747241
- Title: FLEURS-Kobani: Extending the FLEURS Dataset for Northern Kurdish
- Title(参考訳): FLEURS-Kobani:北部クルド人のためのFLEURSデータセットの拡張
- Authors: Daban Q. Jaff, Mohammad Mohammadamini,
- Abstract要約: 我々は、FLEURSベンチマークの北クルド拡張であるFLEURS-Kobaniを紹介する。
データセットは、検証された発話5,162件で構成され、合計18時間24分である。
ベンチマークカバレッジを、リソース不足のクルド人にも拡張する。
- 参考スコア(独自算出の注目度): 0.8164433158925593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: FLEURS offers n-way parallel speech for 100+ languages, but Northern Kurdish is not one of them, which limits benchmarking for automatic speech recognition and speech translation tasks in this language. We present FLEURS-Kobani, a Northern Kurdish (ISO 639-3 KMR) spoken extension of the FLEURS benchmark. The FLEURS-Kobani dataset consists of 5,162 validated utterances, totaling 18 hours and 24 minutes. The data were recorded by 31 native speakers. It extends benchmark coverage to an under-resourced Kurdish variety. As baselines, we fine-tuned Whisper v3-large for ASR and E2E S2TT. A two-stage fine-tuning strategy (Common Voice to FLEURS-Kobani) yields the best ASR performance (WER 28.11, CER 9.84 on test). For E2E S2TT (KMR to EN), Whisper achieves 8.68 BLEU on test; we additionally report pivot-derived targets and a cascaded S2TT setup. FLEURS-Kobani provides the first public Northern Kurdish benchmark for evaluation of ASR, S2TT and S2ST tasks. The dataset is publicly released for research use under a CC BY 4.0 license.
- Abstract(参考訳): FLEURSは100以上の言語に対してn-way並列音声を提供するが、北クルド語はそのうちの1つではない。
我々は、FLEURSベンチマークを拡張した北クルド語 (ISO 639-3 KMR) のFLEURS-Kobaniについて述べる。
FLEURS-Kobaniデータセットは、検証された発話5,162で、合計18時間24分である。
データは31の母国語話者によって記録された。
ベンチマークカバレッジを、リソース不足のクルド人にも拡張する。
ベースラインとして、ASRおよびE2E S2TT用のWhisper v3-largeを微調整した。
2段階の微調整戦略(FLEURS-Kobaniへの共通音声)は、最高のASR性能を得る(WER 28.11、CER 9.84)。
E2E S2TT (KMR to EN) では、Whisper は8.68 BLEUを試験で達成し、ピボット誘導目標とカスケードS2TT設定を報告した。
FLEURS-Kobaniは、ASR、S2TT、S2STタスクの評価のための最初の公的な北クルド人ベンチマークを提供する。
このデータセットはCC BY 4.0ライセンスの下で研究用に公開されている。
関連論文リスト
- Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - The ML-SUPERB 2.0 Challenge: Towards Inclusive ASR Benchmarking for All Language Varieties [107.57160730151975]
我々は200以上の言語、アクセント、方言のデータからなる新しいテストスイートを構築し、SOTA多言語音声モデルを評価する。
その結果, LIDの精度は23%, CERは18%向上した。
アクセントと方言のデータでは、最も良い提出は30.2%低いCERと15.7%高いLIDの精度を得た。
論文 参考訳(メタデータ) (2025-09-08T18:42:36Z) - Automatic Text Summarization (ATS) for Research Documents in Sorani Kurdish [1.174020933567308]
本研究では,Sorani Kurdishの231の科学的論文を基に,データセットと言語モデルを構築した。
結果は手動で評価され、ROUGE-1、ROUGE-2、ROUGE-Lを使用して自動的に評価され、最高精度は19.58%に達した。
論文 参考訳(メタデータ) (2025-04-20T14:17:17Z) - Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context [2.3066058341851816]
アフリカ語のみに特化して訓練された最初の自己教師型多言語音声モデルを提案する。
このモデルは、サハラ以南のアフリカで話されている21の言語と方言で、6万時間近い未ラベルの音声セグメントから学習された。
論文 参考訳(メタデータ) (2024-04-02T14:43:36Z) - Where Are You From? Let Me Guess! Subdialect Recognition of Speeches in Sorani Kurdish [1.174020933567308]
研究対象地域はイラクのクルディスタン地方である。
107回のインタビューから29時間16分40秒の音声録音を蓄積しました。
我々は、ANN、CNN、RNN-LSTMの3つのディープラーニングモデルを適用した。
論文 参考訳(メタデータ) (2024-03-29T19:27:04Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Exploration of End-to-End ASR for OpenSTT -- Russian Open Speech-to-Text
Dataset [73.66530509749305]
本稿では,ロシア最大のオープンソース言語データセットであるOpenSTTのエンドツーエンド自動音声認識システム(ASR)について検討する。
CTC/Attention, RNN-Transducer, Transformer など,既存のエンドツーエンドアプローチの評価を行った。
利用可能な3つの検証セット(電話、YouTube、書籍)について、私たちの最高のエンドツーエンドモデルは、それぞれ34.8%、19.1%、および18.1%のワードエラー率(WER)を達成する。
論文 参考訳(メタデータ) (2020-06-15T10:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。