論文の概要: Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments
- arxiv url: http://arxiv.org/abs/2603.07471v1
- Date: Sun, 08 Mar 2026 05:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.617817
- Title: Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments
- Title(参考訳): 実環境における音声強調モデルの軽量適応に向けて
- Authors: Longbiao Cheng, Shih-Chii Liu,
- Abstract要約: 自己教師型トレーニングによって低ランクのアダプタを更新した冷凍バックボーンを増強する軽量なフレームワークを提案する。
最先端のアプローチと比較して、我々のフレームワークはよりスムーズで安定した収束によって、競争力や優れた知覚品質を達成する。
- 参考スコア(独自算出の注目度): 13.32892559373446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that post-deployment adaptation can improve the robustness of speech enhancement models in unseen noise conditions. However, existing methods often incur prohibitive computational and memory costs, limiting their suitability for on-device deployment. In this work, we investigate model adaptation in realistic settings with dynamic acoustic scene changes and propose a lightweight framework that augments a frozen backbone with low-rank adapters updated via self-supervised training. Experiments on sequential scene evaluations spanning 111 environments across 37 noise types and three signal-to-noise ratio ranges, including the challenging [-8, 0] dB range, show that our method updates fewer than 1% of the base model's parameters while achieving an average 1.51 dB SI-SDR improvement within only 20 updates per scene. Compared to state-of-the-art approaches, our framework achieves competitive or superior perceptual quality with smoother and more stable convergence, demonstrating its practicality for lightweight on-device adaptation of speech enhancement models under real-world acoustic conditions.
- Abstract(参考訳): 近年の研究では、展開後適応は、目に見えない雑音条件下での音声強調モデルの堅牢性を向上させることが示されている。
しかし、既存の手法は、しばしば計算とメモリのコストを禁止し、デバイス上でのデプロイメントに適していることを制限している。
本研究では,動的音響シーン変化を伴う現実的な環境下でのモデル適応について検討し,自己教師付きトレーニングにより低ランクのアダプタを更新した冷凍バックボーンを増強する軽量なフレームワークを提案する。
難易度が8, 0] dBの範囲を含む,37種類の騒音と3つの信号対雑音比の範囲にまたがる111の環境にまたがる連続的なシーン評価実験により,本手法は,1シーン当たり平均1.51dB SI-SDR改善を達成しつつ,基本モデルのパラメータの1%未満を更新することを示した。
現状のアプローチと比較して,本フレームワークはよりスムーズで安定した収束により,競争力や優れた知覚品質を実現し,実際の音響条件下での音声強調モデルのデバイス上での軽量適応の実現性を実証した。
関連論文リスト
- AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-11T20:33:10Z) - E-BATS: Efficient Backpropagation-Free Test-Time Adaptation for Speech Foundation Models [11.696474872520808]
音声基礎モデルでは、音響領域シフトを含む現実のシナリオにデプロイすると、大幅な性能劣化が発生する。
テスト時適応(TTA)は、ソースデータやラベルへのアクセスを必要とせずに、推論時にそのようなドメインシフトに対処するための実行可能な戦略として登場した。
E-BATSは、音声基礎モデルのために明示的に設計された、効率的なBAckproagation-free TTAフレームワークである。
論文 参考訳(メタデータ) (2025-06-08T10:33:37Z) - Handling Label Noise via Instance-Level Difficulty Modeling and Dynamic Optimization [40.87754131017707]
ディープニューラルネットワークは、ノイズの多い監視の下で一般化性能が低下する。
既存のメソッドでは、クリーンなサブセットの分離やノイズのあるラベルの修正に重点を置いている。
本稿では,インスタンスレベルの最適化が可能な新しい2段階雑音学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T19:12:58Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Advancing Test-Time Adaptation in Wild Acoustic Test Settings [26.05732574338255]
音声信号は短期的な一貫性に従い、特別な適応戦略を必要とする。
本研究では,ASR微調整音響基礎モデルに適した新しい音響TTA法を提案する。
本手法は,様々な音環境下での既存のベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-14T06:22:08Z) - SERIL: Noise Adaptive Speech Enhancement using Regularization-based
Incremental Learning [36.24803486242198]
新しい環境への適応は、以前に学んだ環境を壊滅的に忘れてしまう可能性がある。
本稿では,正規化に基づくインクリメンタルラーニングSE(SERIL)戦略を提案する。
規則化制約により、パラメータは以前の騒音環境の知識を維持しつつ、新しい騒音環境に更新される。
論文 参考訳(メタデータ) (2020-05-24T14:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。