論文の概要: E-BATS: Efficient Backpropagation-Free Test-Time Adaptation for Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2506.07078v1
- Date: Sun, 08 Jun 2025 10:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.07851
- Title: E-BATS: Efficient Backpropagation-Free Test-Time Adaptation for Speech Foundation Models
- Title(参考訳): E-BATS:音声基礎モデルの効率的なバックプロパゲーションフリーテスト時間適応
- Authors: Jiaheng Dong, Hong Jia, Soumyajit Chatterjee, Abhirup Ghosh, James Bailey, Ting Dang,
- Abstract要約: 音声基礎モデルでは、音響領域シフトを含む現実のシナリオにデプロイすると、大幅な性能劣化が発生する。
テスト時適応(TTA)は、ソースデータやラベルへのアクセスを必要とせずに、推論時にそのようなドメインシフトに対処するための実行可能な戦略として登場した。
E-BATSは、音声基礎モデルのために明示的に設計された、効率的なBAckproagation-free TTAフレームワークである。
- 参考スコア(独自算出の注目度): 11.696474872520808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Foundation Models encounter significant performance degradation when deployed in real-world scenarios involving acoustic domain shifts, such as background noise and speaker accents. Test-time adaptation (TTA) has recently emerged as a viable strategy to address such domain shifts at inference time without requiring access to source data or labels. However, existing TTA approaches, particularly those relying on backpropagation, are memory-intensive, limiting their applicability in speech tasks and resource-constrained settings. Although backpropagation-free methods offer improved efficiency, existing ones exhibit poor accuracy. This is because they are predominantly developed for vision tasks, which fundamentally differ from speech task formulations, noise characteristics, and model architecture, posing unique transferability challenges. In this paper, we introduce E-BATS, the first Efficient BAckpropagation-free TTA framework designed explicitly for speech foundation models. E-BATS achieves a balance between adaptation effectiveness and memory efficiency through three key components: (i) lightweight prompt adaptation for a forward-pass-based feature alignment, (ii) a multi-scale loss to capture both global (utterance-level) and local distribution shifts (token-level) and (iii) a test-time exponential moving average mechanism for stable adaptation across utterances. Experiments conducted on four noisy speech datasets spanning sixteen acoustic conditions demonstrate consistent improvements, with 4.1%-13.5% accuracy gains over backpropagation-free baselines and 2.0-6.4 times GPU memory savings compared to backpropagation-based methods. By enabling scalable and robust adaptation under acoustic variability, this work paves the way for developing more efficient adaptation approaches for practical speech processing systems in real-world environments.
- Abstract(参考訳): 音声基礎モデルでは、背景雑音や話者アクセントなどの音響領域シフトを含む実世界のシナリオに展開すると、大幅な性能劣化が発生する。
テスト時適応(TTA)は、ソースデータやラベルへのアクセスを必要とせずに、推論時にそのようなドメインシフトに対処するための実行可能な戦略として最近登場した。
しかし、既存のTTAアプローチ、特にバックプロパゲーションに依存しているアプローチは、メモリ集約的であり、音声タスクやリソース制限された設定における適用性を制限している。
バックプロパゲーションフリーの手法は効率を向上するが、既存の手法は精度が低い。
これは、主に視覚タスクのために開発され、音声タスクの定式化、ノイズ特性、モデルアーキテクチャと根本的に異なるためであり、ユニークな伝達可能性の課題を呈している。
本稿では,E-BATSについて紹介する。E-BATSは,音声基礎モデルのために設計された,最初の効率的なBAckプロパゲーションフリーTTAフレームワークである。
E-BATSは3つのキーコンポーネントを通して適応効率とメモリ効率のバランスをとる。
(i)フォワードパスに基づく特徴アライメントのための軽量なプロンプト適応
(二)グローバル(発話レベル)とローカル分布シフト(トークンレベル)の両方を捉えるマルチスケールロス
三 発話間の安定適応のための試験時間指数移動平均メカニズム。
16の音響条件にまたがる4つのノイズの多い音声データセットで実施された実験では、バックプロパゲーションのないベースラインよりも4.1%-13.5%の精度が向上し、バックプロパゲーションベースの手法に比べて2.0-6.4倍のGPUメモリが節約された。
音響可変性の下でスケーラブルでロバストな適応を可能にすることにより、実環境における実用的な音声処理システムのためのより効率的な適応手法を開発するための道を開いた。
関連論文リスト
- Adaptive Noise Resilient Keyword Spotting Using One-Shot Learning [5.967661928760498]
キーワードスポッティング(KWS)はスマートデバイスのキーコンポーネントであり、効率的で直感的なオーディオインタラクションを可能にする。
KWSシステムは実環境下での性能劣化に悩まされることが多い。
そこで本研究では,KWS分類に用いる事前学習ニューラルネットワークの連続雑音適応に対する低計算手法を提案する。
論文 参考訳(メタデータ) (2025-05-14T11:39:47Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Advancing Test-Time Adaptation in Wild Acoustic Test Settings [26.05732574338255]
音声信号は短期的な一貫性に従い、特別な適応戦略を必要とする。
本研究では,ASR微調整音響基礎モデルに適した新しい音響TTA法を提案する。
本手法は,様々な音環境下での既存のベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-14T06:22:08Z) - DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。
拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。
モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Factorised Speaker-environment Adaptive Training of Conformer Speech
Recognition Systems [31.813788489512394]
本稿では,Conformer ASRモデルに対する話者環境適応学習とテスト時間適応手法を提案する。
300時間WHAMノイズ劣化データの実験では、分解適応がベースラインを一貫して上回ることが示唆された。
さらに分析した結果,提案手法は未知の話者環境に迅速に適応できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-26T11:32:05Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition [36.83842373791537]
話者認識システムを新しい環境に適応させることは、良好な性能モデルを改善するために広く使われている手法である。
従来の研究では、複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点が当てられていた。
複数の音響領域にまたがる適応性能を高めるために,3つの新しい適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T22:11:25Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。