Fugu-MT 論文翻訳(概要): Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR

論文の概要: Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR

arxiv url: http://arxiv.org/abs/2304.04974v2
Date: Sun, 23 Apr 2023 03:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 20:22:45.548187
Title: Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR
Title（参考訳）: Wav2code: ノイズロスASRのためのコードブック検索によるクリーンな音声表現の復元
Authors: Yuchen Hu, Chen Chen, Qiushi Zhu, Eng Siong Chng
Abstract要約: ノイズロスASRの歪みを伴わない汎用SEを実装するために,Wav2codeという自己教師型フレームワークを提案する。そこで本研究では,入力ノイズ表現のグローバル依存性をモデル化し,クリーンなコードを正確に予測するトランスフォーマーベースのコード予測器を提案する。合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができることが示された。
参考スコア（独自算出の注目度）: 23.84172431047342
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic speech recognition (ASR) has gained a remarkable success thanks to recent advances of deep learning, but it usually degrades significantly under real-world noisy conditions. Recent works introduce speech enhancement (SE) as front-end to improve speech quality, which is proved effective but may not be optimal for downstream ASR due to speech distortion problem. Based on that, latest works combine SE and currently popular self-supervised learning (SSL) to alleviate distortion and improve noise robustness. Despite the effectiveness, the speech distortion caused by conventional SE still cannot be completely eliminated. In this paper, we propose a self-supervised framework named Wav2code to implement a generalized SE without distortions for noise-robust ASR. First, in pre-training stage the clean speech representations from SSL model are sent to lookup a discrete codebook via nearest-neighbor feature matching, the resulted code sequence are then exploited to reconstruct the original clean representations, in order to store them in codebook as prior. Second, during finetuning we propose a Transformer-based code predictor to accurately predict clean codes by modeling the global dependency of input noisy representations, which enables discovery and restoration of high-quality clean representations without distortions. Furthermore, we propose an interactive feature fusion network to combine original noisy and the restored clean representations to consider both fidelity and quality, resulting in even more informative features for downstream ASR. Finally, experiments on both synthetic and real noisy datasets demonstrate that Wav2code can solve the speech distortion and improve ASR performance under various noisy conditions, resulting in stronger robustness.
Abstract（参考訳）: 自動音声認識(asr)は、ディープラーニングの最近の進歩により、目覚ましい成功を収めているが、現実世界の雑音条件下では、格段に劣化することが多い。近年,音声品質向上のためのフロントエンドとして音声強調(se)が提案されているが,音声歪み問題により下流asrでは最適ではない可能性がある。最新の研究はSEと現在人気の自己教師付き学習(SSL)を組み合わせて歪みを緩和し、ノイズの堅牢性を改善する。有効性にもかかわらず、従来のseによる音声歪みはいまだ完全に排除できない。本稿では,ノイズロスASRの歪みを伴わない汎用SEを実装するために,Wav2codeという自己教師型フレームワークを提案する。まず、トレーニング前の段階でSSLモデルからクリーンな音声表現を送信して、隣り合う特徴マッチングを通じて個別のコードブックを検索し、結果のコードシーケンスを使用して元のクリーンな表現を再構築し、コードブックに予め保存する。次に, 入力ノイズ表現のグローバル依存性をモデル化することにより, 歪みのない高品質なクリーン表現の発見と復元を可能にするトランスフォーマーベースのコード予測器を提案する。さらに、元の雑音と復元されたクリーン表現を組み合わせ、忠実度と品質を両立させるインタラクティブな特徴融合ネットワークを提案する。最後に、合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができ、強靭性をもたらすことを示した。

関連論文リスト

Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文参考訳（メタデータ） (2026-02-24T14:46:54Z)
Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement [24.109107195976346]
URSA-GANは、ノイズおよびチャネル条件のミスマッチを軽減するために設計された、ドメイン対応の生成フレームワークである。 URSA-GANは、ASRの文字誤り率を効果的に低減し、様々なノイズや不一致のチャネルシナリオでSEの指標を改善する。
論文参考訳（メタデータ） (2026-02-04T08:16:22Z)
Listen Like a Teacher: Mitigating Whisper Hallucinations using Adaptive Layer Attention and Knowledge Distillation [9.486565210140279]
Whisperモデルは、多言語およびゼロショット設定における強力なパフォーマンスのために広く採用されている。ウィスパースタイルのASRシステムにおける幻覚を減らすための以前の研究は、主に誤ったコンテンツをフィルタリングするために、音声前処理や書き起こしの後処理に重点を置いていた。本稿では,まずアダプティブ・レイヤ・アテンション(ALA)を用いてエンコーダのロバスト性を向上し,多目的知識蒸留(KD)フレームワークを用いた幻覚を抑制する2段階アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-11-18T07:52:47Z)
Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Feature Fusion [1.376408511310322]
音声品質と知性はノイズの多い環境で著しく劣化する。本稿では,単一チャネル雑音抑圧問題に対処するトランスフォーマーに基づく新しい学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-14T19:27:42Z)
Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文参考訳（メタデータ） (2025-10-15T08:27:16Z)
Quantize More, Lose Less: Autoregressive Generation from Residually Quantized Speech Representations [26.938560887095658]
既存の自己回帰的アプローチは、しばしば大きな情報損失を被るシングルコードブック表現に依存している。我々は、新しいオーディオであるQDAC上に構築された新しいTSフレームワークであるQTTSを提案する。実験により,提案フレームワークは,ベースラインよりも高い合成品質を実現し,表現的コンテンツを保存できることが実証された。
論文参考訳（メタデータ） (2025-07-16T12:47:09Z)
Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
論文参考訳（メタデータ） (2024-10-05T08:27:53Z)
TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-04-19T16:09:17Z)
Bring the Noise: Introducing Noise Robustness to Pretrained Automatic Speech Recognition [13.53738829631595]
本稿では,任意のエンコーダ・デコーダアーキテクチャに適用可能なデノナイズ機能を抽出する新しい手法を提案する。我々はノイズ音声データベース(NSD)で事前プロセッサを訓練し、ノイズ入力から雑音化されたスペクトルを再構成する。クリーンコーダは音声からノイズをフィルタリングすることができ、雑音条件下で下流モデルのワード誤り率(WER)を改善できることを示す。
論文参考訳（メタデータ） (2023-09-05T11:34:21Z)
NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文参考訳（メタデータ） (2022-12-14T08:19:30Z)
Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。 10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文参考訳（メタデータ） (2022-11-04T16:06:56Z)
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文参考訳（メタデータ） (2021-12-17T08:35:40Z)
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文参考訳（メタデータ） (2021-10-28T20:39:02Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
Variational Autoencoder for Speech Enhancement with a Noise-Aware Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文参考訳（メタデータ） (2021-02-17T11:40:42Z)
Dual Adversarial Network: Toward Real-world Noise Removal and Noise Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。本手法はクリーンノイズ画像対の連成分布を学習する。
論文参考訳（メタデータ） (2020-07-12T09:16:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。