論文の概要: Adapting Whisper for Parameter-efficient Code-Switching Speech Recognition via Soft Prompt Tuning
- arxiv url: http://arxiv.org/abs/2506.21576v1
- Date: Mon, 16 Jun 2025 05:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.290903
- Title: Adapting Whisper for Parameter-efficient Code-Switching Speech Recognition via Soft Prompt Tuning
- Title(参考訳): ソフト・プロンプト・チューニングによるパラメータ効率の良いコードスイッチング音声認識のためのウィスパーの適応
- Authors: Hongli Yang, Yizhou Peng, Hao Huang, Sheng Li,
- Abstract要約: Whisperのような大規模多言語ASRモデルは、高リソース設定では優れているが、低リソースシナリオでは課題に直面している。
SPT(Soft Prompt Tuning)は,CS ASRを事前知識を維持しつつ拡張するパラメータ効率の高い手法である。
本研究では,(1)ソフトプロンプトとWhisperモデルの完全微調整(FFT),(2)ソフトプロンプトのみを凍結することでSPTのオリジナルデザインに固執し,ソフトプロンプトの訓練を行う。
- 参考スコア(独自算出の注目度): 13.192310468477377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale multilingual ASR models like Whisper excel in high-resource settings but face challenges in low-resource scenarios, such as rare languages and code-switching (CS), due to computational costs and catastrophic forgetting. We explore Soft Prompt Tuning (SPT), a parameter-efficient method to enhance CS ASR while preserving prior knowledge. We evaluate two strategies: (1) full fine-tuning (FFT) of both soft prompts and the entire Whisper model, demonstrating improved cross-lingual capabilities compared to traditional methods, and (2) adhering to SPT's original design by freezing model parameters and only training soft prompts. Additionally, we introduce SPT4ASR, a combination of different SPT variants. Experiments on the SEAME and ASRU2019 datasets show that deep prompt tuning is the most effective SPT approach, and our SPT4ASR methods achieve further error reductions in CS ASR, maintaining parameter efficiency similar to LoRA, without degrading performance on existing languages.
- Abstract(参考訳): Whisperのような大規模多言語ASRモデルは、高リソース設定では優れているが、計算コストと破滅的な忘れが原因で、希少言語やコードスイッチング(CS)といった低リソースシナリオでは課題に直面している。
SPT(Soft Prompt Tuning)は,CS ASRを事前知識を維持しつつ拡張するパラメータ効率の高い手法である。
本研究では,(1)ソフトプロンプトとWhisperモデルの完全微調整(FFT),(2)ソフトプロンプトのみを凍結することでSPTのオリジナルデザインに固執し,ソフトプロンプトの訓練を行う。
さらに、異なるSPT変種の組み合わせであるSPT4ASRを紹介する。
SEAME と ASRU2019 データセットを用いた実験により,SPT4ASR 法は CS ASR のさらなる誤差低減を実現し,既存の言語の性能を劣化させることなく,LoRA に類似したパラメータ効率を維持した。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR [25.566285376879094]
マルチモーダルモデルは、テキストのみの適応とパラメータ効率のよいASR微調整によって、ラベルなしのテキストを活用することができる。
ゼロショット設定でベースラインよりも17%のWER削減を実現し,ハイリソース言語からの言語間移動を示す。
論文 参考訳(メタデータ) (2024-10-17T11:19:44Z) - Soft Prompt Tuning for Cross-Lingual Transfer: When Less is More [9.230338573494622]
SPT(Soft Prompt Tuning)は、事前訓練された言語モデルを特定のタスクに適応するためのパラメータ効率のよい手法である。
本稿では,言語間移動におけるSPTの可能性について検討する。
論文 参考訳(メタデータ) (2024-02-06T07:52:30Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - SPT: Semi-Parametric Prompt Tuning for Multitask Prompted Learning [28.29889045842277]
マルチタスクによる学習は,さまざまなタスクセットを一度に一般化する上で有効だ。
マルチタスク学習のための半パラメトリックなプロンプトチューニング手法であるSPTを提案する。
論文 参考訳(メタデータ) (2022-12-21T11:18:09Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。