論文の概要: Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement
- arxiv url: http://arxiv.org/abs/2602.04307v1
- Date: Wed, 04 Feb 2026 08:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.433591
- Title: Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement
- Title(参考訳): クロスドメイン音声認識と拡張のためのユニバーサルロバスト音声適応
- Authors: Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen,
- Abstract要約: URSA-GANは、ノイズおよびチャネル条件のミスマッチを軽減するために設計された、ドメイン対応の生成フレームワークである。
URSA-GANは、ASRの文字誤り率を効果的に低減し、様々なノイズや不一致のチャネルシナリオでSEの指標を改善する。
- 参考スコア(独自算出の注目度): 24.109107195976346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained models for automatic speech recognition (ASR) and speech enhancement (SE) have exhibited remarkable capabilities under matched noise and channel conditions. However, these models often suffer from severe performance degradation when confronted with domain shifts, particularly in the presence of unseen noise and channel distortions. In view of this, we in this paper present URSA-GAN, a unified and domain-aware generative framework specifically designed to mitigate mismatches in both noise and channel conditions. URSA-GAN leverages a dual-embedding architecture that consists of a noise encoder and a channel encoder, each pre-trained with limited in-domain data to capture domain-relevant representations. These embeddings condition a GAN-based speech generator, facilitating the synthesis of speech that is acoustically aligned with the target domain while preserving phonetic content. To enhance generalization further, we propose dynamic stochastic perturbation, a novel regularization technique that introduces controlled variability into the embeddings during generation, promoting robustness to unseen domains. Empirical results demonstrate that URSA-GAN effectively reduces character error rates in ASR and improves perceptual metrics in SE across diverse noisy and mismatched channel scenarios. Notably, evaluations on compound test conditions with both channel and noise degradations confirm the generalization ability of URSA-GAN, yielding relative improvements of 16.16% in ASR performance and 15.58% in SE metrics.
- Abstract(参考訳): 自動音声認識(ASR)と音声強調(SE)の事前訓練モデルは、一致した雑音やチャネル条件下で顕著な機能を示した。
しかし、これらのモデルは、特に目に見えないノイズやチャネル歪みの存在下で、ドメインシフトに直面すると、深刻な性能劣化に悩まされることが多い。
そこで本稿では,ノイズおよびチャネル条件のミスマッチを緩和するための,統一的でドメイン対応な生成フレームワークであるURSA-GANについて述べる。
URSA-GANはノイズエンコーダとチャネルエンコーダで構成されるデュアルエンベディングアーキテクチャを利用しており、それぞれがドメイン内の限られたデータを事前訓練してドメイン関連表現をキャプチャする。
これらの埋め込みは、GANベースの音声生成装置を条件とし、音声コンテンツを保持しながら、ターゲット領域と音響的に一致した音声の合成を容易にする。
一般化をさらに促進するために,動的確率摂動(動的確率摂動)を提案する。これは,生成中の埋め込みに制御された可変性を導入し,目に見えない領域への堅牢性を促進する新しい正規化手法である。
経験的結果から,URSA-GANはASRの文字誤り率を効果的に低減し,SEにおける知覚的指標を様々なノイズや不一致のチャネルシナリオで改善することが示された。
特に、チャネルおよびノイズ劣化を伴う複合試験条件の評価では、URSA-GANの一般化能力が確認され、16.16%のASR性能と15.58%のSE測定値が相対的に向上した。
関連論文リスト
- Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [11.385703484113552]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition [23.9811164130045]
本稿では,頑健な音声認識訓練のためのチャネル認識データシミュレーション手法を提案する。
提案手法は,チャネル抽出技術とGANの相乗効果を利用する。
台湾におけるハッカ・アクロス・台湾 (HAT) と台湾・アクロス・台湾 (TAT) のコーパスについて, 相対的文字誤り率 (CER) を 20.02% と 9.64% の減少率で評価した。
論文 参考訳(メタデータ) (2024-09-19T01:02:31Z) - Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation [25.410770364140856]
クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により、しばしば深刻な課題に直面している。
本研究では,ノイズ抽出技術とGANを利用した新しいデータシミュレーション手法を提案する。
本研究では,動的摂動の概念を導入し,制御された摂動を推論中の雑音埋め込みに注入する。
論文 参考訳(メタデータ) (2024-09-03T02:29:01Z) - Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR [35.710735895190844]
ノイズロスASRの歪みを低減した特徴レベルSEを実装するために,Wav2codeという自己教師型フレームワークを提案する。
そこで本研究では,入力ノイズ表現のグローバル依存性をモデル化し,クリーンなコードを正確に予測するトランスフォーマーベースのコード予測器を提案する。
合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-04-11T04:46:12Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。