論文の概要: Efficient Adaptation of Multilingual Models for Japanese ASR
- arxiv url: http://arxiv.org/abs/2412.10705v1
- Date: Sat, 14 Dec 2024 06:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:39.016439
- Title: Efficient Adaptation of Multilingual Models for Japanese ASR
- Title(参考訳): 日本語ASRのための多言語モデルの効率的な適応
- Authors: Mark Bajo, Haruka Fukukawa, Ryuji Morita, Yuma Ogasawara,
- Abstract要約: 本研究では,多言語ASR(Automatic Speech Recognition)モデル,特にOpenAIのWhisper-Tinyを用いて,日本語のパフォーマンス向上について検討する。
日本語固有のデータセットとローランド適応(LoRA)とエンドツーエンド(E2E)トレーニングを使用して、Whisper-Tinyを微調整して、このギャップを埋めた。
その結果,Whisper-Tiny のキャラクタエラーレート (CER) は LoRA では 32.7 から 20.8 に減少し,エンドツーエンドのファインチューニングでは 14.7 に低下し,Whisper-Base の CER は 20。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study explores fine-tuning multilingual ASR (Automatic Speech Recognition) models, specifically OpenAI's Whisper-Tiny, to improve performance in Japanese. While multilingual models like Whisper offer versatility, they often lack precision in specific languages. Conversely, monolingual models like ReazonSpeech excel in language-specific tasks but are less adaptable. Using Japanese-specific datasets and Low-Rank Adaptation (LoRA) along with end-to-end (E2E) training, we fine-tuned Whisper-Tiny to bridge this gap. Our results show that fine-tuning reduced Whisper-Tiny's Character Error Rate (CER) from 32.7 to 20.8 with LoRA and to 14.7 with end-to-end fine-tuning, surpassing Whisper-Base's CER of 20.2. However, challenges with domain-specific terms remain, highlighting the need for specialized datasets. These findings demonstrate that fine-tuning multilingual models can achieve strong language-specific performance while retaining their flexibility. This approach provides a scalable solution for improving ASR in resource-constrained environments and languages with complex writing systems like Japanese.
- Abstract(参考訳): 本研究では,多言語ASR(Automatic Speech Recognition)モデル,特にOpenAIのWhisper-Tinyを用いて,日本語のパフォーマンス向上について検討する。
Whisperのような多言語モデルは汎用性を提供するが、特定の言語では精度に欠けることが多い。
逆に、ReazonSpeechのようなモノリンガルモデルは言語固有のタスクでは優れているが、適応性は低い。
日本語固有のデータセットとローランド適応(LoRA)とエンドツーエンド(E2E)トレーニングを使用して、Whisper-Tinyを微調整して、このギャップを埋めた。
その結果,Whisper-Tiny のキャラクタエラーレート (CER) は LoRA で 32.7 から 20.8 に減少し,エンドツーエンドのファインチューニングでは 14.7 に低下し,Whisper-Base の CER は 20.2 となった。
しかし、ドメイン固有の用語による課題は残っており、特別なデータセットの必要性を強調している。
これらの結果から, 微調整型多言語モデルでは, 柔軟性を維持しつつ, 言語固有の性能が向上できることが示唆された。
このアプローチは、日本語のような複雑な記述システムを持つリソース制約のある環境や言語において、ASRを改善するためのスケーラブルなソリューションを提供する。
関連論文リスト
- Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。
ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。
我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文 参考訳(メタデータ) (2024-11-19T15:55:56Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Efficient Adapter Finetuning for Tail Languages in Streaming
Multilingual ASR [44.949146169903074]
不均一な性質と異なる言語の不均衡なデータが、性能劣化を引き起こす可能性がある。
提案手法は,単語誤り率を平均12.2%,ローカライズで最大37.5%削減する。
論文 参考訳(メタデータ) (2024-01-17T06:01:16Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual
Speech Recognition [58.849768879796905]
エンドツーエンドの多言語音声認識のためのトランスフォーマーベースマルチタスク学習フレームワークであるAdapt-and-Adjust (A2)を提案する。
A2フレームワークは,(1) 訓練済み多言語言語モデル (mBERT) を利用して低リソース言語の性能を向上させる,(2) 言語固有の適応と言語に依存しない2つのアダプタを最小限の追加パラメータで提案する,(3) クラス不均衡を克服する,という3つの手法で解決する。
論文 参考訳(メタデータ) (2020-12-03T03:46:16Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。