論文の概要: Advancing Test-Time Adaptation for Acoustic Foundation Models in
Open-World Shifts
- arxiv url: http://arxiv.org/abs/2310.09505v1
- Date: Sat, 14 Oct 2023 06:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 02:07:19.994727
- Title: Advancing Test-Time Adaptation for Acoustic Foundation Models in
Open-World Shifts
- Title(参考訳): オープンワールドシフトにおける音響基礎モデルの試験時間適応化
- Authors: Hongfu Liu, Hengguan Huang, Ye Wang
- Abstract要約: テスト時間適応(TTA)は、推論中の分散シフトに対処するための重要なパラダイムである。
信頼性向上によって強化された学習に基づく適応を導入する。
合成および実世界のデータセットに関する我々の実験は、既存のベースラインよりも、我々の方法が優れていることを裏付けるものである。
- 参考スコア(独自算出の注目度): 29.28582280403953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-Time Adaptation (TTA) is a critical paradigm for tackling distribution
shifts during inference, especially in visual recognition tasks. However, while
acoustic models face similar challenges due to distribution shifts in test-time
speech, TTA techniques specifically designed for acoustic modeling in the
context of open-world data shifts remain scarce. This gap is further
exacerbated when considering the unique characteristics of acoustic foundation
models: 1) they are primarily built on transformer architectures with layer
normalization and 2) they deal with test-time speech data of varying lengths in
a non-stationary manner. These aspects make the direct application of
vision-focused TTA methods, which are mostly reliant on batch normalization and
assume independent samples, infeasible. In this paper, we delve into TTA for
pre-trained acoustic models facing open-world data shifts. We find that noisy,
high-entropy speech frames, often non-silent, carry key semantic content.
Traditional TTA methods might inadvertently filter out this information using
potentially flawed heuristics. In response, we introduce a heuristic-free,
learning-based adaptation enriched by confidence enhancement. Noting that
speech signals' short-term consistency, we also apply consistency
regularization during test-time optimization. Our experiments on synthetic and
real-world datasets affirm our method's superiority over existing baselines.
- Abstract(参考訳): テスト時間適応(tta)は、特に視覚認識タスクにおいて、推論中に分布シフトに取り組むための重要なパラダイムである。
しかし、テスト時間音声の分布変化による音響モデルも同様の課題に直面しているが、オープンワールドデータシフトの文脈における音響モデリングに特化したTTA技術は依然として乏しい。
このギャップは、音響基礎モデルの独特な特性を考慮するとさらに悪化する。
1) 主に層正規化を伴うトランスアーキテクチャ上に構築されている。
2) 異なる長さの試験時間音声データを非定常的に処理する。
これらの側面は、主にバッチ正規化に依存し、独立したサンプルを仮定する視覚に焦点を当てたtta法を直接適用する。
本稿では,オープンワールドデータシフトに直面する事前学習音響モデルのTTAについて検討する。
ノイズの多い高エントロピーな音声フレームは、しばしば非サイレントで、キーセマンティックな内容を持っている。
従来のTTAメソッドは、潜在的な欠陥のあるヒューリスティックを使って、この情報を不注意にフィルタリングする。
そこで我々は,信頼度向上に富んだヒューリスティックな学習型適応を導入する。
また,音声信号の短期的整合性に留意し,テスト時間最適化時の整合性正則化も適用する。
合成および実世界のデータセットに関する我々の実験は、既存のベースラインよりもメソッドの優位性を確認した。
関連論文リスト
- Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation [25.410770364140856]
クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により、しばしば深刻な課題に直面している。
本研究では,ノイズ抽出技術とGANを利用した新しいデータシミュレーション手法を提案する。
本研究では,動的摂動の概念を導入し,制御された摂動を推論中の雑音埋め込みに注入する。
論文 参考訳(メタデータ) (2024-09-03T02:29:01Z) - Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance [42.90024643696503]
音声強調のためのモデルを協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。
トレーニングパラダイムを評価するための4つの代表的なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-08-12T16:23:58Z) - Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network [23.034147003704483]
本研究は,ASRモデルの単語誤り率(WER)を改善するために,パケット損失から回復することに焦点を当てた。
凍結ASRモデルに接続したフロントエンド適応ネットワークを提案する。
実験により、Whisperの基準に基づいてトレーニングされた適応ネットワークは、特にドメインや言語間の単語エラー率を減少させることが示された。
論文 参考訳(メタデータ) (2024-06-27T06:40:01Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Factorised Speaker-environment Adaptive Training of Conformer Speech
Recognition Systems [31.813788489512394]
本稿では,Conformer ASRモデルに対する話者環境適応学習とテスト時間適応手法を提案する。
300時間WHAMノイズ劣化データの実験では、分解適応がベースラインを一貫して上回ることが示唆された。
さらに分析した結果,提案手法は未知の話者環境に迅速に適応できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-26T11:32:05Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。