論文の概要: On the Role of Encoder Depth: Pruning Whisper and LoRA Fine-Tuning in SLAM-ASR
- arxiv url: http://arxiv.org/abs/2603.27981v1
- Date: Mon, 30 Mar 2026 03:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.20556
- Title: On the Role of Encoder Depth: Pruning Whisper and LoRA Fine-Tuning in SLAM-ASR
- Title(参考訳): SLAM-ASRにおけるエンコーダ深さの役割について
- Authors: Ganesh Pavan Kartikeya Bharadwaj Kolluri, Michael Kampouridis, Ravi Shekhar,
- Abstract要約: SLAM-ASRの音響バックボーンとして使用するWhisperエンコーダにおける層プルーニングの効果を解析した。
ウィスパーの3つの変種(Small、Medium、Large-v2)、異なる資源レベル(デンマーク語、オランダ語、英語)を表す3つの言語(Danish、Danish、Large-v2)、200以上のトレーニングランをまたいだ実験が行われた。
LoRA適応は、未処理のベースラインを一貫して上回り、総パラメータを7-14%削減する。
- 参考スコア(独自算出の注目度): 4.036791118154379
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic speech recognition (ASR) has advanced rapidly in recent years, driven by large-scale pretrained models and end-to-end architectures such as SLAM-ASR. A key component of SLAM-ASR systems is the Whisper speech encoder, which provides robust acoustic representations. While model pruning has been explored for the full Whisper encoder-decoder architecture, its impact within the SLAM-ASR setting remains under-investigated. In this work, we analyze the effects of layer pruning in the Whisper encoder when used as the acoustic backbone of SLAM-ASR. We further examine the extent to which LoRA-based fine-tuning can recover performance degradation caused by pruning. Experiments conducted across three Whisper variants (Small, Medium, Large-v2), three languages representing distinct resource levels (Danish, Dutch, English), and over 200 training runs demonstrate that pruning two encoder layers causes only 2-4% WER degradation, and that combining this pruning with LoRA adaptation consistently outperforms the unpruned baseline while reducing total parameters by 7-14%. Moreover, our error analysis reveals that LoRA primarily compensates through the language model's linguistic priors, reducing total word errors by 11-21% for Dutch and English, with substitutions and deletions showing the largest reductions. However, for low-resource Danish, the reduction is smaller (4-7%), and LoRA introduces increased insertion errors, indicating that compensation effectiveness depends on the LLM's pre-existing language proficiency and available training data.
- Abstract(参考訳): 近年,SLAM-ASRのような大規模事前学習モデルやエンドツーエンドアーキテクチャによって,音声認識(ASR)が急速に進歩している。
SLAM-ASRシステムの主要なコンポーネントは、堅牢な音響表現を提供するWhisper音声エンコーダである。
完全なWhisperエンコーダデコーダアーキテクチャのためにモデルプルーニングが検討されているが、SLAM-ASR設定における影響は未検討のままである。
本研究では,SLAM-ASRの音響バックボーンとして使用するWhisperエンコーダにおける層プルーニングの効果を解析する。
さらに,LoRAをベースとした微調整により,刈り込みによる性能劣化が回復する可能性についても検討する。
3つのWhisper変種(Small、Medium、Large-v2)、異なるリソースレベルを表す3言語(デンマーク語、オランダ語、英語)、200以上のトレーニング実行による実験では、2つのエンコーダ層をプルーニングするとわずか2-4%のWER劣化しか生じず、このプルーニングとLoRA適応を組み合わせることで、総パラメーターを7-14%削減しながら、アンプルベースラインを一貫して上回っている。
さらに, 誤り分析の結果, LoRAは言語モデルの言語的先行性を補うものであり, 単語の総誤りをオランダ語と英語で11~21%減らし, 置換や削除が最大の減少を示すことがわかった。
しかし、低リソースデンマークでは、削減は小さく(4-7%)、LoRAは挿入エラーの増加を導入し、補償の有効性はLLMの既存の言語習熟度と利用可能なトレーニングデータに依存することを示した。
関連論文リスト
- Decomposing and Composing: Towards Efficient Vision-Language Continual Learning via Rank-1 Expert Pool in a Single LoRA [50.97792275353563]
単一低ランク適応 (LoRA) モジュールを分解可能な Rank-1 エキスパートプールとして再構成する,新しいフレームワークを提案する。
本手法では,このエキスパートプールから[Guided]トークンのセマンティクスに導かれて,疎結合でタスク固有の更新を動的に作成することを学ぶ。
論文 参考訳(メタデータ) (2026-01-30T10:54:51Z) - Incorporating Error Level Noise Embedding for Improving LLM-Assisted Robustness in Persian Speech Recognition [1.3607388598209322]
本研究では,複数の仮説と雑音認識モデルを組み合わせた頑健な雑音感受性ASR誤差補正フレームワークを提案する。
雑音の多いペルシャ語を用いて、修正されたWhisper-largeデコーダから5-best仮説を生成する。
実験結果から, ELN条件付きモデルは単語誤り率(WER)を大幅に低減できることが示された。
論文 参考訳(メタデータ) (2025-12-19T05:26:50Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing [33.36615989947073]
拡散型大言語モデルLLaDAを用いた音声認識(ASR)に関する実験的検討を行った。
ランダムマスキング,低信頼マスキング,半自己回帰戦略について検討し,Whisper-LLaDAがベースラインと比較してWERを大幅に低減することを示した。
ほとんどの実験的な構成はWhisper-LLaMAベースラインよりも高速な推論を実現するが、認識精度はわずかに低い。
論文 参考訳(メタデータ) (2025-09-20T10:48:06Z) - Bridging ASR and LLMs for Dysarthric Speech Recognition: Benchmarking Self-Supervised and Generative Approaches [0.0]
音素歪みと高い可変性による音声認識(ASR)
Wav2Vec、HuBERT、Whisperといった自己監督型ASRモデルは、将来性を示しているが、変形性音声におけるそれらの有効性は未だ不明である。
本研究は, CTC, seq2seq, LLM強化復号化など, 異なる復号化戦略でこれらのモデルを体系的にベンチマークする。
論文 参考訳(メタデータ) (2025-08-11T14:31:20Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - Investigating Training Strategies and Model Robustness of Low-Rank
Adaptation for Language Modeling in Speech Recognition [27.515920408920216]
フリーズドプレトレーニング言語モデル(PLM)を用いたローランク適応(LoRA)は、メモリ制約ハードウェアのための資源効率の高いモデリング手法である。
本研究では,様々なLoRAトレーニング戦略を導入することにより,モデル性能を向上させる方法について検討する。
LoRAに基づく第2パス音声認識モデルの安定性をさらに評価するため,入力摂動に対する検討を行った。
論文 参考訳(メタデータ) (2024-01-19T01:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。