論文の概要: Using fine-tuning and min lookahead beam search to improve Whisper
- arxiv url: http://arxiv.org/abs/2309.10299v1
- Date: Tue, 19 Sep 2023 04:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 16:25:25.322412
- Title: Using fine-tuning and min lookahead beam search to improve Whisper
- Title(参考訳): 微調整とミンルックアヘッドビームサーチによるWhisperの改良
- Authors: Andrea Do, Oscar Brown, Zhengjie Wang, Nikhil Mathew, Zixin Liu,
Jawwad Ahmed, Cheng Yu
- Abstract要約: 我々はWhisperを付加データに基づいて微調整し、改良された復号アルゴリズムを提案する。
ベトナム語では、LoRAで微調整されたWhisper-Tinyは、ゼロショットのWhisper-Tiny設定よりもWERで38.49の改善を実現している。
また、Min LookaheadがWhisperで使われる標準ビーム探索アルゴリズムより優れているという定理も証明する。
- 参考スコア(独自算出の注目度): 8.799617195804489
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The performance of Whisper in low-resource languages is still far from
perfect. In addition to a lack of training data on low-resource languages, we
identify some limitations in the beam search algorithm used in Whisper. To
address these issues, we fine-tune Whisper on additional data and propose an
improved decoding algorithm. On the Vietnamese language, fine-tuning
Whisper-Tiny with LoRA leads to an improvement of 38.49 in WER over the
zero-shot Whisper-Tiny setting which is a further reduction of 1.45 compared to
full-parameter fine-tuning. Additionally, by using Filter-Ends and Min
Lookahead decoding algorithms, the WER reduces by 2.26 on average over a range
of languages compared to standard beam search. These results generalise to
larger Whisper model sizes. We also prove a theorem that Min Lookahead
outperforms the standard beam search algorithm used in Whisper.
- Abstract(参考訳): 低リソース言語におけるWhisperのパフォーマンスはまだ完璧には程遠い。
低リソース言語でのトレーニングデータの欠如に加えて、whisperで使用されているビーム探索アルゴリズムの制限も特定した。
これらの問題に対処するために,追加データについてささやきを微調整し,改良した復号アルゴリズムを提案する。
ベトナム語では、LoRAで微調整されたWhisper-Tinyは、フルパラメータの微調整に比べてさらに1.45の縮小であるゼロショットのWhisper-TinyよりもWERで38.49の改善をもたらす。
さらに、Filter-EndsとMin Lookaheadデコードアルゴリズムを使用することで、WERは標準的なビームサーチと比較して、様々な言語で平均2.26削減される。
これらの結果はより大きなwhisperモデルサイズに一般化される。
また、Min LookaheadがWhisperで使われる標準ビーム探索アルゴリズムより優れているという定理も証明する。
関連論文リスト
- Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。
これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper [21.656923341138103]
本研究は,学習データがない場合の新たな言語モデルを強化するための戦略について検討する。
中国のウイスパーモデル(ウイグル語とチベット語)による実験では、よりコンパクトなパラメータセットでより良い結果が得られる。
論文 参考訳(メタデータ) (2024-08-20T09:31:59Z) - Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection [14.989929439744172]
我々は、Whisperのクロスアテンションに埋め込まれた時間アライメントを利用して自動回帰デコーディングをガイドするSimul-Whisperを紹介する。
複数の言語とWhisperアーキテクチャの実験により、Simul-Whisperは1秒のチャンクサイズで平均1.46%の絶対単語誤り率を達成した。
論文 参考訳(メタデータ) (2024-06-14T14:07:26Z) - Initial Decoding with Minimally Augmented Language Model for Improved Lattice Rescoring in Low Resource ASR [0.532018200832244]
本稿では,低リソース言語における格子再構成による音声認識精度向上の問題に対処する。
対象言語のより大きなテキストコーパスに存在するが、ベースラインには存在しない単語ユニグラム数でベースライン言語モデルを最小化する。
提案手法を用いて,21.8% (Telugu) と41.8% (Kannada) の単語誤りを削減した。
論文 参考訳(メタデータ) (2024-03-16T14:34:31Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo
Labelling [75.74809713084282]
Distil-Whisperは投機的復号化のためにWhisperとペアで設計されており、2倍のスピードアップを実現している。
Distil-Whisperは5.8倍高速で、パラメータは51%少ない。
この領域におけるさらなる研究を促進するため、トレーニングコード、推論コード、モデルが一般に公開されています。
論文 参考訳(メタデータ) (2023-11-01T10:45:07Z) - Can Contextual Biasing Remain Effective with Whisper and GPT-2? [18.783162616664363]
本稿では,GPT-2を併用したWhisperに対する神経コンテキストバイアスの有効性について検討する。
3つのデータセットに対する実験では、1000単語の偏りリストで単語の偏りの誤差が大幅に減少している。
論文 参考訳(メタデータ) (2023-06-02T22:56:01Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Sampling-Based Minimum Bayes Risk Decoding for Neural Machine
Translation [20.76001576262768]
本研究では,最小ベイズリスク (MBR) 復号化に対するサンプリングに基づく近似がビーム探索の呪文と等価でないことを示す。
また,ビーム探索や核サンプリングといった手法を用いて仮説空間を効率的に構築することが有用であることを示す。
論文 参考訳(メタデータ) (2021-08-10T14:35:24Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - If beam search is the answer, what was the question? [78.71330480725668]
ビームサーチは、認知科学に動機づけられた特性であるテキストの均一な情報密度を強制する。
この特性を明示的に強制する復号対象のセットを提案し、これらの目的による正確な復号化は、校正の不十分な言語生成モデルの復号時に発生する問題を緩和する。
論文 参考訳(メタデータ) (2020-10-06T11:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。