論文の概要: SSVD-O: Parameter-Efficient Fine-Tuning with Structured SVD for Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.12600v1
- Date: Sun, 18 Jan 2026 22:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.695154
- Title: SSVD-O: Parameter-Efficient Fine-Tuning with Structured SVD for Speech Recognition
- Title(参考訳): SSVD-O: 音声認識のための構造化SVDを用いたパラメータ効率の良いファインチューニング
- Authors: Pu Wang, Shinji Watanabe, Hugo Van hamme,
- Abstract要約: 本稿では,構造化SVD誘導(SSVD)ファインチューニング法の拡張であるSSVD-Outer(SSVD-O)を紹介する。
自動音声認識のためのPEFTにおいて,モデル部分空間間のパラメータ予算配分を初めて体系的に解析する。
その結果, SSVD-O は連続的に性能ギャップを細調整に狭めつつ, 一般化を改善し, 破滅的な忘れを軽減できることが示唆された。
- 参考スコア(独自算出の注目度): 65.90944188787786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) is a scalable approach for adapting large speech foundation models to new domains. While methods such as LoRA and its state-of-the-art variants reduce adaptation costs, they typically allocate parameters uniformly across model subspaces, which limits their efficiency and scalability in speech applications. Building on our prior work, this paper introduces SSVD-Outer (SSVD-O), an extension of the structured SVD-guided (SSVD) fine-tuning method. SSVD-O combines input acoustic feature space-associated inner transformations with output semantic feature space-associated outer transformations to enable scalable and balanced adaptation. We conduct the first systematic analysis of parameter budget allocation across model subspaces in PEFT for automatic speech recognition (ASR), and investigate the trade-off between learning and forgetting under constrained resources. SSVD-O is benchmarked against LoRA, DoRA, PiSSA, and SSVD on domain-shifted ASR tasks, including child speech and regional accents, across model scales from 0.1B to 2B within the ESPnet framework. Experimental results show that SSVD-O consistently narrows the performance gap to full fine-tuning while improving generalization and mitigating catastrophic forgetting.
- Abstract(参考訳): パラメータ効率細調整(PEFT)は、大規模音声基礎モデルを新しい領域に適用するためのスケーラブルなアプローチである。
LoRAやその最先端の変種は適応コストを低減させるが、一般的にはパラメータをモデル部分空間全体に均一に割り当て、音声アプリケーションにおける効率とスケーラビリティを制限している。
本稿では,SSVD-Outer (SSVD-O) という,構造化SVD-Guided (SSVD) ファインチューニング手法の拡張について述べる。
SSVD-Oは入力音響特徴空間関連内部変換と出力意味特徴空間関連外部変換を組み合わせることで、スケーラブルでバランスの取れた適応を可能にする。
本稿では,自動音声認識(ASR)のためのPEFTにおいて,モデル部分空間間のパラメータ予算配分を初めて体系的に解析し,制約されたリソース下での学習と忘れのトレードオフについて検討する。
SSVD-Oは、ESPnetフレームワーク内の0.1Bから2Bまでのモデルスケールで、子どものスピーチや地域アクセントを含むドメインシフトされたASRタスクに対して、LoRA、DoRA、PiSSA、SSVDに対してベンチマークされる。
実験結果から, SSVD-Oは総体化を改良し, 破滅的忘れを軽減しつつ, 性能ギャップを全微調整に一貫して狭めていることがわかった。
関連論文リスト
- SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Steering Vision-Language Pre-trained Models for Incremental Face Presentation Attack Detection [62.89126207012712]
顔提示攻撃検出(PAD)は、スプーフィング戦術やドメインと戦うために漸進的な学習を要求する。
過去のデータ保持を禁止し、リハーサルフリーラーニング(RF-IL)を必要とするプライバシー規制
論文 参考訳(メタデータ) (2025-12-22T04:30:11Z) - SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR [65.90944188787786]
ローランク適応(LoRA)は、音声アプリケーションで広く使われているが、VeRA、DoRA、PiSSA、SVFTといった最先端の変種は、主に言語や視覚タスクのために開発されており、音声による検証は限られている。
本研究は,これらのPEFTメソッドをESPnet内での総合的な統合とベンチマークを行う。
本研究では、0.1Bから2Bまでのモデルスケールで、幼児の発話や方言の変化を含むドメインシフト音声認識タスクに関するすべての手法を評価する。
論文 参考訳(メタデータ) (2025-09-02T20:51:17Z) - Merging Memory and Space: A State Space Neural Operator [8.378604588491394]
State Space Neural Operator (SS-NO) は時間依存偏微分方程式の解演算子を学習するためのコンパクトなアーキテクチャである。
SS-NOは多種多様なPDEベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-31T11:09:15Z) - Lightweight Modular Parameter-Efficient Tuning for Open-Vocabulary Object Detection [2.1155908599769764]
パラメータ効率の良いオープン語彙オブジェクト検出のための軽量なモジュラーフレームワークUniProj-Detを提案する。
UniProj-Detは事前訓練されたバックボーンを凍結し、学習可能なモダリティトークンを備えたユニバーサル・プロジェクション・モジュールを導入し、最小限のコストで視覚-言語適応を可能にする。
論文 参考訳(メタデータ) (2024-08-20T12:27:53Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。