論文の概要: Advancing STT for Low-Resource Real-World Speech
- arxiv url: http://arxiv.org/abs/2506.08836v1
- Date: Tue, 10 Jun 2025 14:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.574488
- Title: Advancing STT for Low-Resource Real-World Speech
- Title(参考訳): 低音源実世界音声のためのSTTの改良
- Authors: Flavio D'Intino, Hans-Peter Hutter,
- Abstract要約: 本稿では,300時間アノテート音声コーパスであるSRB-300データセットを提案する。
様々な現実的な環境で記録された全てのスイスの方言を自然に会話する。
SRB-300データセット上で複数のOpenAI Whisperモデルを微調整し、以前のゼロショットパフォーマンスメトリクスよりも顕著な拡張を実現しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Swiss German is a low-resource language represented by diverse dialects that differ significantly from Standard German and from each other, lacking a standardized written form. As a result, transcribing Swiss German involves translating into Standard German. Existing datasets have been collected in controlled environments, yielding effective speech-to-text (STT) models, but these models struggle with spontaneous conversational speech. This paper, therefore, introduces the new SRB-300 dataset, a 300-hour annotated speech corpus featuring real-world long-audio recordings from 39 Swiss German radio and TV stations. It captures spontaneous speech across all major Swiss dialects recorded in various realistic environments and overcomes the limitation of prior sentence-level corpora. We fine-tuned multiple OpenAI Whisper models on the SRB-300 dataset, achieving notable enhancements over previous zero-shot performance metrics. Improvements in word error rate (WER) ranged from 19% to 33%, while BLEU scores increased between 8% and 40%. The best fine-tuned model, large-v3, achieved a WER of 17.1% and a BLEU score of 74.8. This advancement is crucial for developing effective and robust STT systems for Swiss German and other low-resource languages in real-world contexts.
- Abstract(参考訳): スイスドイツ語(Swiss German)は、標準ドイツ語と異なる様々な方言で表される低リソース言語であり、標準ドイツ語と異なる言語である。
その結果、スイスドイツ語は標準ドイツ語に翻訳される。
既存のデータセットは制御された環境で収集され、効果的な音声テキスト(STT)モデルが得られたが、これらのモデルは自発的な会話音声と競合する。
そこで本稿では,スイスの39のラジオ局とテレビ局から,実世界のロングオーディオ録音を収録した300時間の注釈付き音声コーパスである,新しいSRB-300データセットを紹介する。
様々な現実的な環境で記録されたすべての主要スイス方言の自然発話を捉え、前文レベルのコーパスの制限を克服する。
SRB-300データセット上で複数のOpenAI Whisperモデルを微調整し、以前のゼロショットパフォーマンスメトリクスよりも顕著な拡張を実現しました。
WERは19%から33%,BLEUは8%から40%であった。
最高の微調整モデルであるBig-v3は17.1%のWERと74.8のBLEUスコアを達成した。
この進歩は、実世界の文脈においてスイスドイツ語や他の低リソース言語のための効果的で堅牢なSTTシステムの開発に不可欠である。
関連論文リスト
- Voice Adaptation for Swiss German [7.4162190889971]
本研究は、スイスドイツ語方言における音声適応モデルの性能、すなわち標準ドイツ語のテキストをスイスドイツ語の方言言語に翻訳する性能について検討する。
このために、スイスのポッドキャストの大規模なデータセットを前処理し、方言のクラスを自動で書き起こし、注釈付けします。
このデータセット上でXTTSv2モデルを微調整し、人や自動化された評価において良好なスコアを達成し、所望の方言を正しく描画できることを示す。
論文 参考訳(メタデータ) (2025-05-28T07:24:40Z) - Fine-tuning Whisper on Low-Resource Languages for Real-World Applications [1.5908667698635532]
非文レベルのデータは、長文音声のパフォーマンスを向上する可能性があるが、著作権法により取得が困難であり、しばしば制限される。
我々の手法は、よりアクセスしやすい文レベルのデータを、長文音声を扱うモデルの能力を保持するフォーマットに変換することで、このギャップを埋める。
我々のモデルは、未調整のWhisperと、これまでの最先端のスイスのドイツのSTTモデルと比較し、そこでは、我々の新しいモデルはより高いBLEUスコアを達成します。
論文 参考訳(メタデータ) (2024-12-20T09:49:02Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - SDS-200: A Swiss German Speech to Standard German Text Corpus [5.370317759946287]
SDS-200は、標準ドイツ語翻訳によるスイスドイツ語方言のコーパスである。
データはウェブ記録ツールを使って収集され、一般に公開されている。
このデータは、約4000人の異なる話者による200時間のスピーチで構成され、スイス・ドイツ方言の風景の大部分をカバーしている。
論文 参考訳(メタデータ) (2022-05-19T12:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。