論文の概要: SloPalSpeech: A 2,8000-Hour Slovak Speech Corpus from Parliamentary Data
- arxiv url: http://arxiv.org/abs/2509.19270v1
- Date: Tue, 23 Sep 2025 17:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.980078
- Title: SloPalSpeech: A 2,8000-Hour Slovak Speech Corpus from Parliamentary Data
- Title(参考訳): SloPalSpeech: 議会データによる28,000時間スロバキア語コーパス
- Authors: Erik Božík, Marek Šuppa,
- Abstract要約: SloPalSpeechは、議会手続きから2,806時間のスピーチを含む大規模なスロバキアのASRデータセットである。
このデータセットを使用して、いくつかのOpenAI Whisperモデルを微調整します。
低音源音声認識における将来の研究を促進するため、我々はSloPalSpeechデータセットを公開している。
- 参考スコア(独自算出の注目度): 0.00954904463032233
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic Speech Recognition (ASR) for low-resource languages like Slovak is hindered by the scarcity of training data. To address this, we introduce SloPalSpeech, a new, large-scale Slovak ASR dataset containing 2,806 hours of speech from parliamentary proceedings. We developed a robust processing pipeline to align and segment long-form recordings into clean, 30-second audio-transcript pairs suitable for model training. We use this dataset to fine-tune several OpenAI Whisper models (small, medium, large-v3, and large-v3-turbo), achieving significant Word Error Rate (WER) reductions on standard Slovak benchmarks like Common Voice and FLEURS. For instance, the fine-tuned Whisper-small model's WER dropped by up to 70\%, approaching the baseline performance of the much larger Whisper-large-v3 model. To foster future research in low-resource speech recognition, we publicly release the complete SloPalSpeech dataset, the fully segmented transcripts (60 million words), and all our fine-tuned models.
- Abstract(参考訳): スロバキアのような低リソース言語のための自動音声認識(ASR)は、トレーニングデータの不足によって妨げられている。
SloPalSpeechは,議会手続きから2,806時間のスピーチを含む,スロバキアの大規模ASRデータセットである。
モデルトレーニングに適した30秒のクリーンな音声書き起こしペアに長文録音を整列・分節する頑健な処理パイプラインを開発した。
このデータセットを使用して、OpenAI Whisperモデル(小、中、大、大、大、大、大)を微調整し、Common VoiceやFLEURSのような標準スロバキアのベンチマークでワードエラー率(WER)を大幅に削減する。
例えば、微調整されたWhisper-large-v3モデルのWERは70 %まで低下し、より大型のWhisper-large-v3モデルのベースライン性能に近づいた。
低音源音声認識における将来の研究を促進するため、全SloPalSpeechデータセット、全セグメント化文字起こし(6000万語)、微調整されたモデルをすべて公開します。
関連論文リスト
- Efficient Interleaved Speech Modeling through Knowledge Distillation [5.389972857470079]
現在の音声言語モデルは、多くのデプロイメント環境のサイズやレイテンシの制約を超える。
我々は, 層状蒸留, 隠れ状態のマッチング, 注意マップ, 軟化ロジットにより, コンパクトで表現力豊かな音声生成モデルを構築した。
TinyWave は (i) 音声または表現的トークンと (ii) 混合音声テキスト継続を用いた音声のみの生成をサポートする。
論文 参考訳(メタデータ) (2025-06-30T09:47:37Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。
我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。
SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - SpeechStew: Simply Mix All Available Speech Recognition Data to Train
One Large Neural Network [45.59907668722702]
本研究では,公開音声認識データセットの組み合わせで学習した音声認識モデルである speechstew を提案する。
結果はAMI-IHMの9.0% WER、Switchboardの4.7% WER、CallHomeの8.3% WER、WSJの1.3%である。
また, speechstew が強力な転送学習表現を学習することを示す。
論文 参考訳(メタデータ) (2021-04-05T20:13:36Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。