論文の概要: Boosting Norwegian Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2307.01672v1
- Date: Tue, 4 Jul 2023 12:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 17:20:51.645028
- Title: Boosting Norwegian Automatic Speech Recognition
- Title(参考訳): ノルウェーの自動音声認識の強化
- Authors: Javier de la Rosa, Rolv-Arild Braaten, Per Egil Kummervold, Freddy
Wetjen, Svein Arne Brygfjeld
- Abstract要約: 本稿では,ノルウェーの2つの公用語であるボクマール語とニノルスク語に対する自動音声認識(ASR)モデルについて述べる。
複数のノルウェー語音声データセットにおける様々な大きさのモデルと事前学習アプローチの性能を比較した。
我々は,ノルウェー議会音声コーパス (NPSC) の言語誤り率 (WER) を17.10%から7.60%に改善し,ボクマールでは5.81%,ニノルスクでは11.54%とした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present several baselines for automatic speech recognition
(ASR) models for the two official written languages in Norway: Bokm{\aa}l and
Nynorsk. We compare the performance of models of varying sizes and pre-training
approaches on multiple Norwegian speech datasets. Additionally, we measure the
performance of these models against previous state-of-the-art ASR models, as
well as on out-of-domain datasets. We improve the state of the art on the
Norwegian Parliamentary Speech Corpus (NPSC) from a word error rate (WER) of
17.10\% to 7.60\%, with models achieving 5.81\% for Bokm{\aa}l and 11.54\% for
Nynorsk. We also discuss the challenges and potential solutions for further
improving ASR models for Norwegian.
- Abstract(参考訳): 本稿では,ノルウェーの2つの公用語である Bokm{\aa}l と Nynorsk の音声認識モデルについて述べる。
複数のノルウェー語音声データセットにおける様々な大きさのモデルと事前学習アプローチの性能を比較した。
さらに、従来の最先端asrモデルやドメイン外データセットに対して、これらのモデルのパフォーマンスを測定する。
ノルウェー議会音声コーパス(npsc)の技術状態を、単語誤り率(wer)が17.10\%から7.60\%に改善し、モデルではbokm{\aa}lが5.81\%、nynorskが11.54\%となった。
ノルウェーのASRモデルをさらに改善するための課題と潜在的な解決策についても論じる。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Whispering in Norwegian: Navigating Orthographic and Dialectic
Challenges [0.2984347156162651]
本稿では,NB-Whisperを紹介する。NB-WhisperはOpenAIのWhisperの適応であり,特にノルウェー語自動音声認識(ASR)用に微調整されている。
我々は、その重要な貢献を強調し、話されたノルウェー語を書式に変換し、他の言語をノルウェー語に翻訳することで得られた結果を要約する。
論文 参考訳(メタデータ) (2024-02-02T21:38:12Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Annotating Norwegian Language Varieties on Twitter for Part-of-Speech [14.031720101413557]
POSタグを付加したノルウェーのTwitterデータセットを提案する。
このデータセットに対して評価すると,UD(Universal Dependency)データに基づいてトレーニングしたモデルの性能が低下することを示す。
また、方言のツイートのパフォーマンスは、一部のモデルの標準書に匹敵するものであることもわかっています。
論文 参考訳(メタデータ) (2022-10-12T12:53:30Z) - Operationalizing a National Digital Library: The Case for a Norwegian
Transformer Model [0.0]
国立図書館でデジタルコレクションとデジタルコレクションから大規模なトレーニングセットを構築するプロセスを紹介します。
ノルウェー語のための変換器(BERT)に基づく双方向表現は、複数のトークンおよびシーケンス分類タスクにおいて多言語BERT(mBERT)モデルより優れている。
論文 参考訳(メタデータ) (2021-04-19T20:36:24Z) - NorDial: A Preliminary Corpus of Written Norwegian Dialect Use [4.211128681972148]
ツイートの小さなコーパスを収集し、手動でBokmaal、Nynorsk、方言、またはミックスとしてアノテートします。
本研究は,最先端モデルを用いた予備実験と,このコーパスを将来拡張するためのデータの分析を行う。
論文 参考訳(メタデータ) (2021-04-11T10:56:53Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。