論文の概要: Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.12436v1
- Date: Sun, 18 Jan 2026 14:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.63036
- Title: Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition
- Title(参考訳): 融合前の浄化:ロバスト音声認識のためのマスクフリー音声強調に向けて
- Authors: Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei Yin,
- Abstract要約: 高雑音の音声入力は、特徴融合プロセスに有害な干渉をもたらす傾向がある。
本稿では、音声強調と組み合わさった、エンドツーエンドノイズローバストAVSRフレームワークを提案する。
本手法は,頑健な音声認識性能を実現するために,音声の意味的整合性を保っている。
- 参考スコア(独自算出の注目度): 13.50064027453736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual speech recognition (AVSR) typically improves recognition accuracy in noisy environments by integrating noise-immune visual cues with audio signals. Nevertheless, high-noise audio inputs are prone to introducing adverse interference into the feature fusion process. To mitigate this, recent AVSR methods often adopt mask-based strategies to filter audio noise during feature interaction and fusion, yet such methods risk discarding semantically relevant information alongside noise. In this work, we propose an end-to-end noise-robust AVSR framework coupled with speech enhancement, eliminating the need for explicit noise mask generation. This framework leverages a Conformer-based bottleneck fusion module to implicitly refine noisy audio features with video assistance. By reducing modality redundancy and enhancing inter-modal interactions, our method preserves speech semantic integrity to achieve robust recognition performance. Experimental evaluations on the public LRS3 benchmark suggest that our method outperforms prior advanced mask-based baselines under noisy conditions.
- Abstract(参考訳): 聴覚視覚音声認識(AVSR)は、ノイズ免疫の視覚的手がかりと音声信号を統合することで、ノイズの多い環境での認識精度を向上させるのが一般的である。
それでも、高雑音の音声入力は、特徴融合プロセスに有害な干渉をもたらす傾向にある。
これを軽減するために、最近のAVSR手法では、機能相互作用と融合の間、音声ノイズをフィルタリングするマスクベースの手法を採用することが多いが、このような手法は、ノイズと共に意味的な関連情報を破棄するリスクがある。
本研究では,音声強調と組み合わさった終端ノイズキャンバスAVSRフレームワークを提案し,明示的なノイズマスク生成の必要性を排除した。
このフレームワークは、Conformerベースのボトルネック融合モジュールを利用して、暗黙的にノイズの多いオーディオ機能をビデオアシストで洗練する。
モダリティの冗長性を低減し、モーダル間相互作用を強化することにより、音声認識性能を高めるために、音声の意味的整合性を維持する。
提案手法は,騒音条件下での従来のマスクベースベースラインよりも優れていた。
関連論文リスト
- Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion [46.072071890391356]
本稿では,トークンレベルの音響劣化スコアに基づいて,音声と視覚の特徴を適応的に重み付けする新しいフレームワークを提案する。
音声-視覚機能融合型ルータを用いて、信頼できない音声トークンをダウンウェイトし、各デコーダ層にゲートされたクロスアテンションを通じて視覚的手がかりを補強する。
LRS3の実験では,AV-HuBERTと比較して単語誤り率を16.51-42.67%削減できることが示されている。
論文 参考訳(メタデータ) (2025-08-26T07:05:48Z) - Cocktail-Party Audio-Visual Speech Recognition [58.222892601847924]
本研究では,現在のAVSRシステムのベンチマークを行うために設計された,新しい音声-視覚カクテルパーティデータセットを提案する。
音声とサイレント顔の両方からなる1526時間AVSRデータセットをコントリビュートし,カクテルパーティー環境における顕著な性能向上を実現した。
我々の手法は、WERを最先端と比較して67%削減し、WERを明示的なセグメンテーション手法に頼ることなく、極音の119%から39.2%に削減する。
論文 参考訳(メタデータ) (2025-06-02T19:07:51Z) - Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation [13.575063025878208]
能動音声修正のための新しいパラダイム:能動音声強調(ASE)について紹介する。
干渉抑制と信号の富化を協調的に最適化するタスク固有損失関数とともに,トランスフォーマー・マンバに基づく新しいアーキテクチャを提案する。
提案手法は,複数の音声処理タスクにおいて,デノベーション,デノベーション,デクリッピングなど,既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-22T17:10:18Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Visual Context-driven Audio Feature Enhancement for Robust End-to-End
Audio-Visual Speech Recognition [29.05833230733178]
音声・視覚対応の助けを借りて、入力ノイズの多い音声音声を強化するために、視覚コンテキスト駆動型音声特徴強調モジュール(V-CAFE)を提案する。
The proposed V-CAFE is designed to capture the transition of lip movement、すなわち visual context, and to generate a noise reduction mask by consider the obtained visual context。
提案手法の有効性は,2大音声視覚データセットであるLSS2とLSS3を用いて,雑音の多い音声認識および重複音声認識実験において評価される。
論文 参考訳(メタデータ) (2022-07-13T08:07:19Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。