論文の概要: SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR
- arxiv url: http://arxiv.org/abs/2509.02830v1
- Date: Tue, 02 Sep 2025 20:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.341596
- Title: SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR
- Title(参考訳): SSVD: ASRにおけるドメインシフトの下でのパラメータ効率の良いファインチューニングとベンチマークのための構造化SVD
- Authors: Pu Wang, Shinji Watanabe, Hugo Van hamme,
- Abstract要約: ローランク適応(LoRA)は、音声アプリケーションで広く使われているが、VeRA、DoRA、PiSSA、SVFTといった最先端の変種は、主に言語や視覚タスクのために開発されており、音声による検証は限られている。
本研究は,これらのPEFTメソッドをESPnet内での総合的な統合とベンチマークを行う。
本研究では、0.1Bから2Bまでのモデルスケールで、幼児の発話や方言の変化を含むドメインシフト音声認識タスクに関するすべての手法を評価する。
- 参考スコア(独自算出の注目度): 65.90944188787786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) has emerged as a scalable solution for adapting large foundation models. While low-rank adaptation (LoRA) is widely used in speech applications, its state-of-the-art variants, e.g., VeRA, DoRA, PiSSA, and SVFT, are developed mainly for language and vision tasks, with limited validation in speech. This work presents the first comprehensive integration and benchmarking of these PEFT methods within ESPnet. We further introduce structured SVD-guided (SSVD) fine-tuning, which selectively rotates input-associated right singular vectors while keeping output-associated vectors fixed to preserve semantic mappings. This design enables robust domain adaptation with minimal trainable parameters and improved efficiency. We evaluate all methods on domain-shifted speech recognition tasks, including child speech and dialectal variation, across model scales from 0.1B to 2B. All implementations are released in ESPnet to support reproducibility and future work.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)は、大規模な基礎モデルに適応するためのスケーラブルなソリューションとして登場した。
低ランク適応(LoRA)は音声アプリケーションで広く使われているが、VeRA、DoRA、PiSSA、SVFTといった最先端の変種は主に言語および視覚タスク向けに開発されており、音声による検証は限られている。
本研究は,これらのPEFTメソッドをESPnet内での総合的な統合とベンチマークを行う。
さらに、入力関連右特異ベクトルを選択的に回転させ、セマンティックマッピングを保持するために出力関連ベクトルを固定した構造化SVD微調整(SSVD)を導入する。
この設計により、最小限のトレーニング可能なパラメータで堅牢なドメイン適応が可能となり、効率が向上する。
本研究では、0.1Bから2Bまでのモデルスケールで、幼児の発話や方言の変化を含むドメインシフト音声認識タスクに関するすべての手法を評価する。
すべての実装はESPnetでリリースされ、再現性と今後の作業をサポートする。
関連論文リスト
- Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time [12.659582318581606]
Vision Foundation Models (VFM) や Multimodal Large Language Models (MLLM) といった現在のアプローチでは意味理解が強化されているが、微調整時に高い計算オーバーヘッドと限られたクロスドメイン転送性に悩まされている。
本稿では,直接類似度スコアリングのためのガイダンスベースの手法を用いて,視覚言語アライメント機能を活用したテスト時間スケーリング(TTS)を用いた新しいフレームワークを提案する。
提案手法では,長さ制御可能なスコアアウトプットを生成する構造的プロンプトを用いることで,2段階処理を除去する。
論文 参考訳(メタデータ) (2025-09-02T09:25:13Z) - Feature-Space Planes Searcher: A Universal Domain Adaptation Framework for Interpretability and Computational Efficiency [7.889121135601528]
現在の教師なし領域適応法は微調整特徴抽出器に依存している。
領域適応フレームワークとしてFPS(Feature-space Planes Searcher)を提案する。
FPSは最先端の手法と比較して,競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-08-26T05:39:21Z) - Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。
そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。
特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-30T17:14:12Z) - AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.60646883395454]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - EUDA: An Efficient Unsupervised Domain Adaptation via Self-Supervised Vision Transformer [21.59850502993888]
教師なしドメイン適応(UDA)は、トレーニング(ソース)データの分散がテスト(ターゲット)データと異なる領域シフトの問題を軽減することを目的としている。
この問題に対処するために多くのモデルが開発され、近年では視覚変換器(ViT)が有望な結果を示している。
本稿では、トレーニング可能なパラメータを削減し、調整可能な複雑性を実現するための効率的なモデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T03:29:28Z) - On Fine-Tuned Deep Features for Unsupervised Domain Adaptation [23.18781318003242]
ドメイン適応性能を向上させるために,細調整された特徴と特徴変換に基づくUDA法を組み合わせる可能性について検討した。
具体的には、一般的なプログレッシブな擬似ラベリング手法を微調整フレームワークに統合し、微調整された特徴を抽出する。
ResNet-50/101 や DeiT-small/base を含む複数の深層モデルによる実験を行い、微調整された特徴の組み合わせを実証した。
論文 参考訳(メタデータ) (2022-10-25T15:07:04Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - End-to-End Spoken Language Understanding for Generalized Voice
Assistants [15.241812584273886]
商用音声アシスタント(VA)における一般化音声認識のためのE2Eモデル構築のためのアプローチを提案する。
本研究では,ASRレベルとNLUレベルの両方で事前学習が可能な,完全に微分可能なトランスフォーマーベースの階層システムを提案する。
これは転写と意味分類の両方の損失に基づいて微調整され、多種多様な意図と引数の組み合わせを扱う。
論文 参考訳(メタデータ) (2021-06-16T17:56:47Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。