論文の概要: Mai Ho'omāuna i ka 'Ai: Language Models Improve Automatic Speech Recognition in Hawaiian
- arxiv url: http://arxiv.org/abs/2404.03073v1
- Date: Wed, 3 Apr 2024 21:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 16:22:48.188673
- Title: Mai Ho'omāuna i ka 'Ai: Language Models Improve Automatic Speech Recognition in Hawaiian
- Title(参考訳): Mai Ho'omāuna i ka 'Ai:Language Models Improving Automatic Speech Recognition in Hawaiian
- Authors: Kaavya Chaparala, Guido Zarrella, Bruce Torres Fischer, Larry Kimura, Oiwi Parker Jones,
- Abstract要約: ハワイ語テキストの1.5万語で外部言語モデル(LM)を訓練する。
次に、LMを用いてWhisperを再スコアし、ハワイのラベル付きデータの手作業によるテストセット上でワードエラー率(WER)を計算する。
- 参考スコア(独自算出の注目度): 2.679689033125693
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we address the challenge of improving Automatic Speech Recognition (ASR) for a low-resource language, Hawaiian, by incorporating large amounts of independent text data into an ASR foundation model, Whisper. To do this, we train an external language model (LM) on ~1.5M words of Hawaiian text. We then use the LM to rescore Whisper and compute word error rates (WERs) on a manually curated test set of labeled Hawaiian data. As a baseline, we use Whisper without an external LM. Experimental results reveal a small but significant improvement in WER when ASR outputs are rescored with a Hawaiian LM. The results support leveraging all available data in the development of ASR systems for underrepresented languages.
- Abstract(参考訳): 本稿では,多数の独立したテキストデータをASR基盤モデルであるWhisperに組み込むことで,低リソース言語であるハワイ語における音声認識(ASR)の改善を課題とする。
これを実現するために,ハワイ語テキストの約1.5万語で外部言語モデル(LM)を訓練する。
次に、LMを用いてWhisperを再スコアし、ハワイのラベル付きデータの手作業によるテストセット上でワードエラー率(WER)を計算する。
ベースラインとして、外部LMなしでWhisperを使用します。
実験の結果,ハワイのLMでASR出力を再現した場合,WERは小さいが顕著な改善が見られた。
結果は、表現不足言語のためのASRシステムの開発において、利用可能なすべてのデータを活用することを支援する。
関連論文リスト
- Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - WER We Stand: Benchmarking Urdu ASR Models [3.5001789247699535]
本稿では,Urdu Automatic Speech Recognition(ASR)モデルの総合評価を行う。
単語誤り率(WER)を用いた3種類のASRモデル(Whisper, MMS, Seamless-M4T)の性能解析を行った。
読み上げ音声データセットでは、スムーズな広さが他のASRモデルより優れているのに対し、ささやきの広さは会話音声データセットでは最高であることがわかった。
論文 参考訳(メタデータ) (2024-09-17T15:00:31Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - Adapting an ASR Foundation Model for Spoken Language Assessment [40.402050390096456]
正確で信頼性の高い音声言語評価システムの重要な部分は、基礎となるASRモデルである。
近年、Whisperのような大規模な事前訓練されたASRファンデーションモデルが利用可能になっている。
これらのモデルでは、出力の反響やためらう傾向にある。
ここでは、候補者が言ったことを正確に書き起こす必要がある。
論文 参考訳(メタデータ) (2023-07-13T16:01:58Z) - Improving Speech Recognition for Indic Languages using Language Model [0.0]
本稿では,言語モデル(LM)の適用が,インデックス言語の自動音声認識(ASR)システムの出力に与える影響について検討する。
We fine-tune wav2vec $2.0$ models for 18$ Indic languages and adjust the formula with language model training on text from various sources。
論文 参考訳(メタデータ) (2022-03-30T18:22:12Z) - USTED: Improving ASR with a Unified Speech and Text Encoder-Decoder [8.88137815551529]
テキストからテキストへの補助的なタスクのセットと共同でASRモデルを訓練する。
ASRのみの基準線上でWERを16%, 20%の減少率で比較検討した。
我々は、Librispeechデータ上でマスク付き言語モデルを訓練したり、補助タスクとして機械翻訳を使用したりすることで、さらなる改善を実現している。
論文 参考訳(メタデータ) (2022-02-12T11:35:59Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Speech Recognition for Endangered and Extinct Samoyedic languages [0.32228025627337864]
本研究では,絶滅危惧言語と絶滅危惧言語を用いた音声認識実験を行う。
私たちの知る限りでは、絶滅言語のために機能的なASRシステムが構築されたのはこれが初めてです。
論文 参考訳(メタデータ) (2020-12-09T21:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。