論文の概要: Enhancing Whisper's Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization
- arxiv url: http://arxiv.org/abs/2412.19785v1
- Date: Fri, 27 Dec 2024 18:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:40.268104
- Title: Enhancing Whisper's Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization
- Title(参考訳): プロンプトチューニングとトークン化によるWhisperのインドの言語精度と速度向上
- Authors: Kumud Tripathi, Raj Gothi, Pankaj Wasnik,
- Abstract要約: 本稿では,インドの言語におけるWhisperの多言語音声認識性能を高めるための2つの新しいアプローチについて検討する。
まず,言語的に類似した言語におけるWhisperの精度を高めるために,言語家族情報を用いたプロンプトチューニングを提案する。
第二に、生成したトークンの数を減らし、Whisperの推論速度を加速する新しいトークン化器を導入する。
- 参考スコア(独自算出の注目度): 2.403252956256118
- License:
- Abstract: Automatic speech recognition has recently seen a significant advancement with large foundational models such as Whisper. However, these models often struggle to perform well in low-resource languages, such as Indian languages. This paper explores two novel approaches to enhance Whisper's multilingual speech recognition performance in Indian languages. First, we propose prompt-tuning with language family information, which enhances Whisper's accuracy in linguistically similar languages. Second, we introduce a novel tokenizer that reduces the number of generated tokens, thereby accelerating Whisper's inference speed. Our extensive experiments demonstrate that the tokenizer significantly reduces inference time, while prompt-tuning enhances accuracy across various Whisper model sizes, including Small, Medium, and Large. Together, these techniques achieve a balance between optimal WER and inference speed.
- Abstract(参考訳): 音声認識は近年,Whisperのような大規模基盤モデルで大きく進歩している。
しかしながら、これらのモデルは、インド語のような低リソース言語でよく機能するのに苦労することが多い。
本稿では,インドの言語におけるWhisperの多言語音声認識性能を向上させるための2つの新しいアプローチについて検討する。
まず,言語的に類似した言語におけるWhisperの精度を高めるために,言語家族情報を用いたプロンプトチューニングを提案する。
第二に、生成トークンの数を減らし、Whisperの推論速度を加速する新しいトークン化器を導入する。
広範囲な実験により,トークン化装置は推論時間を大幅に短縮する一方,プロンプトチューニングにより,小,中,大などのウィスパーモデルサイズで精度が向上することが示された。
これらの手法を併用すると、最適なWERと推論速度のバランスがとれる。
関連論文リスト
- Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。
これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text [22.19230427358921]
表現不足の言語でWhisperのパフォーマンスを改善する方法について研究する価値がある。
我々は、アクセシブル・アンペア音声とテキストデータを利用し、言語モデルGPTとカザフ語Whisperを組み合わせた。
複数の実験で10%以上の絶対WER削減を達成した。
論文 参考訳(メタデータ) (2024-08-10T13:39:13Z) - Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper [51.12146889808824]
本研究は,ハイパフォーマンス音声認識モデルであるWhisperとプロンプトの情報がどのように相互作用するかを考察する。
結果から,Whisperは人為的に文章のプロンプトを理解できない可能性が示唆された。
また、英語のプロンプトが両方の言語のデータセットで一般的にマンダリンよりも優れていることも指摘されている。
論文 参考訳(メタデータ) (2024-06-09T14:44:59Z) - Keyword-Guided Adaptation of Automatic Speech Recognition [17.011087631073863]
本稿では,Whisper ベースモデルを用いた文脈バイアスによる単語認識の改良手法を提案する。
本稿では,Whisperエンコーダ表現を利用したキーワードスポッティングモデルを用いて,書き起こし処理中にデコーダを誘導するプロンプトを動的に生成する。
その結果,特定のキーワードの認識精度が向上し,全体的な単語誤り率の低減が図られた。
論文 参考訳(メタデータ) (2024-06-04T14:20:38Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。