論文の概要: Swedish Whispers; Leveraging a Massive Speech Corpus for Swedish Speech Recognition
- arxiv url: http://arxiv.org/abs/2505.17538v1
- Date: Fri, 23 May 2025 06:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.87647
- Title: Swedish Whispers; Leveraging a Massive Speech Corpus for Swedish Speech Recognition
- Title(参考訳): スウェーデンのウィスパー : スウェーデン語音声認識のための大規模音声コーパスの活用
- Authors: Leonora Vesterbacka, Faton Rekathati, Robin Kurtz, Justyna Sikora, Agnes Toftgård,
- Abstract要約: スウェーデンのWhisperモデルは、このミッドリソース言語に対して前例のない大きさと可変性のデータセットに基づいてトレーニングされている。
スウェーデンで評価されたOpenAIのWhisperと比較して,モデルサイズ全体の改善が報告されている。
- 参考スコア(独自算出の注目度): 1.1417805445492082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a suite of fine-tuned Whisper models for Swedish, trained on a dataset of unprecedented size and variability for this mid-resourced language. As languages of smaller sizes are often underrepresented in multilingual training datasets, substantial improvements in performance can be achieved by fine-tuning existing multilingual models, as shown in this work. This work reports an overall improvement across model sizes compared to OpenAI's Whisper evaluated on Swedish. Most notably, we report an average 47% reduction in WER comparing our best performing model to OpenAI's whisper-large-v3, in evaluations across FLEURS, Common Voice, and NST.
- Abstract(参考訳): スウェーデンのWhisperモデルは、このミッドリソース言語に対して前例のない大きさと可変性のデータセットに基づいてトレーニングされている。
小さいサイズの言語は、多言語トレーニングデータセットでは表現できないことが多いため、この研究で示されているように、既存の多言語モデルを微調整することで、パフォーマンスを大幅に改善することができる。
スウェーデンで評価されたOpenAIのWhisperと比べて、モデルサイズ全体の改善が報告されている。
最も注目すべきは、FLEURS、Common Voice、NSTにおける評価において、WERの最高のパフォーマンスモデルとOpenAIのwhisper-large-v3を比較した平均47%の削減を報告したことである。
関連論文リスト
- Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文 参考訳(メタデータ) (2025-03-30T18:03:52Z) - Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。
ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。
我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文 参考訳(メタデータ) (2024-11-19T15:55:56Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Evaluating Large Language Models with Human Feedback: Establishing a Swedish Benchmark [0.0]
大規模言語モデル(LLM)は、多数のアプリケーションにまたがる重要な機能を示している。
本研究では,スウェーデン語テキストの理解と生成におけるLLMの有効性を評価するための総合的人間ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-22T21:22:51Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Hearing voices at the National Library -- a speech corpus and acoustic
model for the Swedish language [0.0]
スウェーデン国立図書館(KB)における音声認識のための新しい音響モデル(ASR)を開発した。
我々は,wav2vec 2.0アーキテクチャを用いて,スウェーデン語における音声視覚リソースのための音声からテキストへのパイプラインを実現するための様々なアプローチを評価する。
文化遺産機関におけるこのような技術の可能性を明らかにすることで、これまでにないオーディオヴィジュアルデータを大量に収集することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-05-06T06:06:00Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - Large-Scale Self- and Semi-Supervised Learning for Speech Translation [48.06478781295623]
大規模なLibri-Light音声コーパスとCommonCrawlを用いた言語モデリングを用いて,事前学習と自己学習の両方について検討する。
私たちの実験は、CoVoST 2言語ペアの4つすべてで平均2.6 BLEUで以前の状態よりも改善されました。
論文 参考訳(メタデータ) (2021-04-14T07:44:52Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。