論文の概要: Explainable Disentanglement on Discrete Speech Representations for Noise-Robust ASR
- arxiv url: http://arxiv.org/abs/2510.25150v1
- Date: Wed, 29 Oct 2025 04:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.076191
- Title: Explainable Disentanglement on Discrete Speech Representations for Noise-Robust ASR
- Title(参考訳): ノイズ・ロバストASRの離散音声表現における説明可能な絡み合い
- Authors: Shreyas Gopal, Ashutosh Anshul, Haoyang Li, Yue Heng Yeo, Hexin Liu, Eng Siong Chng,
- Abstract要約: 本稿では,潜時空間における背景雑音から意味的音声内容を引き離す手法を提案する。
我々のエンドツーエンドモデルは、解釈可能なノイズベクトルを抽出しながら、クリーン音声をコードブックトークンの形で分離する。
提案手法は、クリーン/ノイズの多い音声とテキストのアライメントを改善し、高いノイズ分散を示す音声トークンを生成する。
- 参考スコア(独自算出の注目度): 37.09163295946173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete audio representations are gaining traction in speech modeling due to their interpretability and compatibility with large language models, but are not always optimized for noisy or real-world environments. Building on existing works that quantize Whisper embeddings for speech-to-unit modeling, we propose disentangling semantic speech content from background noise in the latent space. Our end-to-end model separates clean speech in the form of codebook tokens, while extracting interpretable noise vectors as quantization residue which are supervised via a lightweight classifier. We show that our approach improves alignment between clean/noisy speech and text, producing speech tokens that display a high degree of noiseinvariance, and improves ASR performance. Keeping Whisper frozen, we show an 82% reduction in error rate compared to Whisper, and 35% improvement over baseline methods on the VBDemand test set. Further analyses show that the learned token space generalizes well to both seen and unseen acoustic conditions.
- Abstract(参考訳): 離散音声表現は、大きな言語モデルとの解釈可能性や互換性のため、音声モデリングにおいて注目を集めているが、ノイズや現実の環境に対して常に最適化されているわけではない。
音声認識におけるWhisperの埋め込みを定量的に評価する既存の研究に基づいて,潜時空間における背景雑音から意味的音声コンテンツを分離する手法を提案する。
我々のエンドツーエンドモデルでは,コードブックトークンの形でクリーン音声を分離し,軽量な分類器によって教師される量子化残差として解釈可能なノイズベクトルを抽出する。
提案手法は、クリーン/ノイズの多い音声とテキストのアライメントを改善し、高いノイズ分散を示す音声トークンを生成し、ASR性能を向上させる。
一方,Whisper は凍結状態であり,Whisper と比較して82% の誤差率低下を示し,VBDemand テストセットのベースライン法では 35% の改善が見られた。
さらに分析した結果, 学習したトークン空間は, 目に見える, 見えない両方の音響条件によく当てはまることがわかった。
関連論文リスト
- Robust Prompt Tuning for Vision-Language Models with Mild Semantic Noise [9.536089523962486]
本稿では弱いセマンティックノイズを積極的に組み込んだ堅牢なプロンプトチューニングフレームワークであるANPromptを提案する。
我々は、ANPromptが既存のプロンプトチューニング手法より一貫して優れていることを示す。
セマンティックノイズに対して優れたロバスト性を提供し、タスク間の一般化を改善している。
論文 参考訳(メタデータ) (2025-08-06T17:42:30Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Fine-grained Noise Control for Multispeaker Speech Synthesis [3.449700218265025]
テキスト音声モデル(TTS)は、典型的には、内容、話者、韻律などの音声属性を非絡み合い表現に分解する。
近年の課題は, 音響条件を的確にモデル化することであり, 主要な音声要因を解消することである。
論文 参考訳(メタデータ) (2022-04-11T13:13:55Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。