論文の概要: Position-invariant Fine-tuning of Speech Enhancement Models with Self-supervised Speech Representations
- arxiv url: http://arxiv.org/abs/2601.21084v1
- Date: Wed, 28 Jan 2026 22:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.460809
- Title: Position-invariant Fine-tuning of Speech Enhancement Models with Self-supervised Speech Representations
- Title(参考訳): 自己教師型音声表現を用いた音声強調モデルの位置不変微調整
- Authors: Amit Meghanani, Thomas Hain,
- Abstract要約: 自己教師付き学習(SSL)に基づく音声モデルを用いたフロントエンド音声強調(SE)モデルは、ノイズの多い条件下での下流タスクに有効である。
MSEはSSLモデルに位置埋め込みを利用する傾向があり、コンテンツ関連情報ではなく位置相関によって目的を最小化することができる。
この研究は、自己教師付き表現の微調整の一般的な制限として問題を補足し、表現誘導SEを通してそれを調査する。
- 参考スコア(独自算出の注目度): 25.2377839206337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating front-end speech enhancement (SE) models with self-supervised learning (SSL)-based speech models is effective for downstream tasks in noisy conditions. SE models are commonly fine-tuned using SSL representations with mean squared error (MSE) loss between enhanced and clean speech. However, MSE is prone to exploiting positional embeddings in SSL models, allowing the objective to be minimised through positional correlations instead of content-related information. This work frames the problem as a general limitation of self-supervised representation fine-tuning and investigates it through representation-guided SE. Two strategies are considered: (1) zero-padding, previously explored in SSL pre-training but here examined in the fine-tuning setting, and (2) speed perturbations with a soft-DTW loss. Experiments show that the soft-DTW-based approach achieves faster convergence and improved downstream performance, underscoring the importance of position-invariant fine-tuning in SSL-based speech modelling.
- Abstract(参考訳): フロントエンド音声強調(SE)モデルと自己教師付き学習(SSL)ベースの音声モデルを統合することは、ノイズの多い条件下での下流タスクに有効である。
SEモデルは、拡張音声とクリーン音声の間の平均2乗誤差(MSE)損失を持つSSL表現を用いて、一般に微調整される。
しかし、MSEはSSLモデルに位置埋め込みを利用する傾向があり、コンテンツ関連情報ではなく位置相関によって目的を最小化することができる。
この研究は、自己教師付き表現の微調整の一般的な制限として問題を補足し、表現誘導SEを通してそれを調査する。
1)ゼロパディングはSSL事前トレーニングで検討されたが,ここでは微調整設定で検討し,(2)ソフトDTW損失を伴う速度摂動について検討した。
実験により,ソフトDTWに基づくアプローチはより高速な収束と下流性能の向上を実現し,SSLに基づく音声モデリングにおける位置不変微調整の重要性を強調した。
関連論文リスト
- Subspace Alignment for Vision-Language Model Test-time Adaptation [82.83192844597593]
視覚言語モデル(VLM)は分布シフトに対して脆弱である。
既存のテスト時間適応法は、自己学習のための擬似ラベルとしてゼロショット予測に依存している。
両モードのセマンティック部分空間を整列させてゼロショット予測を強化するSubTTAを提案する。
論文 参考訳(メタデータ) (2026-01-13T02:02:41Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks [64.02867484165476]
プライバシー保護と法的規制を満たすために、連邦学習(FL)は、音声テキスト(S2T)システムのトレーニングにおいて大きな注目を集めている。
S2Tタスクで一般的に使用されるFLアプローチ(textscFedAvg)は、通常、広範な通信オーバーヘッドに悩まされる。
我々は、クライアント側チューニングとサーバとのインタラクションのための軽量なLoRAモジュールであるtextscFedLoRA と、$k$-near を備えたグローバルモデルである textscFedMem を導入したパーソナライズされたS2Tフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T15:39:38Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Improving generalizability of distilled self-supervised speech
processing models under distorted settings [46.503354111827356]
自己教師付き学習(SSL)音声事前訓練モデルは、様々な音声処理タスクでよく機能する。
本稿では,知識蒸留中のSSLモデルに対して,クロス歪みマッピングとドメイン適応トレーニングを適用することを提案する。
論文 参考訳(メタデータ) (2022-10-14T17:17:45Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。