論文の概要: Noise-Robust AV-ASR Using Visual Features Both in the Whisper Encoder and Decoder
- arxiv url: http://arxiv.org/abs/2601.18396v1
- Date: Mon, 26 Jan 2026 11:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.807145
- Title: Noise-Robust AV-ASR Using Visual Features Both in the Whisper Encoder and Decoder
- Title(参考訳): ウィスパーエンコーダとデコーダの両方の視覚特徴を用いたノイズロスAV-ASR
- Authors: Zhengyang Li, Thomas Graave, Björn Möller, Zehang Wu, Matthias Franz, Tim Fingscheidt,
- Abstract要約: 本稿では,エンコーダとデコーダの音声視覚相互作用を学習するための,シンプルで効果的な視覚融合法を提案する。
提案手法は,Whisper小量に基づく35%の相対的改善(WER: 4.41% vs. 6.83%)など,一貫した雑音改善を示す。
1929年のオーディオヴィジュアルデータに基づいて,Whisper媒体を用いた2次使用法は,様々なSNRで平均4.08%(MUSANバブルノイズ),平均4.43%(NoiseXバブルノイズ)を達成した。
- 参考スコア(独自算出の注目度): 19.243120761853536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In audiovisual automatic speech recognition (AV-ASR) systems, information fusion of visual features in a pre-trained ASR has been proven as a promising method to improve noise robustness. In this work, based on the prominent Whisper ASR, first, we propose a simple and effective visual fusion method -- use of visual features both in encoder and decoder (dual-use) -- to learn the audiovisual interactions in the encoder and to weigh modalities in the decoder. Second, we compare visual fusion methods in Whisper models of various sizes. Our proposed dual-use method shows consistent noise robustness improvement, e.g., a 35% relative improvement (WER: 4.41% vs. 6.83%) based on Whisper small, and a 57% relative improvement (WER: 4.07% vs. 9.53%) based on Whisper medium, compared to typical reference middle fusion in babble noise with a signal-to-noise ratio (SNR) of 0dB. Third, we conduct ablation studies examining the impact of various module designs and fusion options. Fine-tuned on 1929 hours of audiovisual data, our dual-use method using Whisper medium achieves 4.08% (MUSAN babble noise) and 4.43% (NoiseX babble noise) average WER across various SNRs, thereby establishing a new state-of-the-art in noisy conditions on the LRS3 AV-ASR benchmark. Our code is at https://github.com/ifnspaml/Dual-Use-AVASR
- Abstract(参考訳): 音声視覚自動音声認識(AV-ASR)システムでは、事前訓練されたASRにおける視覚的特徴の情報融合が、雑音の頑健性を改善するための有望な方法として証明されている。
本研究は、Whisper ASRに基づいて、まず、エンコーダとデコーダ(デュアルユース)の両方の視覚的特徴を利用して、エンコーダの視覚的相互作用を学習し、デコーダのモダリティを測る、シンプルで効果的なビジュアルフュージョン法を提案する。
次に,様々な大きさのWhisperモデルにおける視覚融合法の比較を行った。
提案手法では,Whisper をベースとした35%の相対的改善 (WER: 4.41% vs. 6.83%) ,Whisper をベースとした57%の相対的改善 (WER: 4.07% vs. 9.53%) を示す。
第3に、様々なモジュール設計と融合オプションの影響について、アブレーション研究を行う。
1929年のオーディオヴィジュアルデータを微調整し、Whisperメディアを用いた2次使用法は、様々なSNRにわたる平均WERの4.08%(MUSANバブルノイズ)と4.43%(NoiseXバブルノイズ)を達成する。
私たちのコードはhttps://github.com/ifnspaml/Dual-Use-AVASRにあります。
関連論文リスト
- Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion [46.072071890391356]
本稿では,トークンレベルの音響劣化スコアに基づいて,音声と視覚の特徴を適応的に重み付けする新しいフレームワークを提案する。
音声-視覚機能融合型ルータを用いて、信頼できない音声トークンをダウンウェイトし、各デコーダ層にゲートされたクロスアテンションを通じて視覚的手がかりを補強する。
LRS3の実験では,AV-HuBERTと比較して単語誤り率を16.51-42.67%削減できることが示されている。
論文 参考訳(メタデータ) (2025-08-26T07:05:48Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Attentive Fusion Enhanced Audio-Visual Encoding for Transformer Based
Robust Speech Recognition [27.742673824969238]
提案手法は, クリーンで目立たない騒音条件下での認識率を平均0.55%, 4.51%, 4.61%向上させることができる。
LRS3-TEDデータセットの実験により、提案手法は平均0.55%、4.51%、4.61%の認識率を向上できることが示された。
論文 参考訳(メタデータ) (2020-08-06T14:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。