論文の概要: Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion
- arxiv url: http://arxiv.org/abs/2508.18734v1
- Date: Tue, 26 Aug 2025 07:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.714608
- Title: Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion
- Title(参考訳): ルータゲート型クロスモーダル特徴融合による雑音ロバスト音声認識の改善
- Authors: DongHoon Lim, YoungChae Kim, Dong-Hyun Kim, Da-Hee Yang, Joon-Hyuk Chang,
- Abstract要約: 本稿では,トークンレベルの音響劣化スコアに基づいて,音声と視覚の特徴を適応的に重み付けする新しいフレームワークを提案する。
音声-視覚機能融合型ルータを用いて、信頼できない音声トークンをダウンウェイトし、各デコーダ層にゲートされたクロスアテンションを通じて視覚的手がかりを補強する。
LRS3の実験では,AV-HuBERTと比較して単語誤り率を16.51-42.67%削減できることが示されている。
- 参考スコア(独自算出の注目度): 46.072071890391356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust audio-visual speech recognition (AVSR) in noisy environments remains challenging, as existing systems struggle to estimate audio reliability and dynamically adjust modality reliance. We propose router-gated cross-modal feature fusion, a novel AVSR framework that adaptively reweights audio and visual features based on token-level acoustic corruption scores. Using an audio-visual feature fusion-based router, our method down-weights unreliable audio tokens and reinforces visual cues through gated cross-attention in each decoder layer. This enables the model to pivot toward the visual modality when audio quality deteriorates. Experiments on LRS3 demonstrate that our approach achieves an 16.51-42.67% relative reduction in word error rate compared to AV-HuBERT. Ablation studies confirm that both the router and gating mechanism contribute to improved robustness under real-world acoustic noise.
- Abstract(参考訳): ノイズの多い環境下でのロバストな音声視覚音声認識(AVSR)は、既存のシステムは、音声の信頼性を推定し、モダリティ依存を動的に調整するのに苦労しているため、依然として困難である。
本稿では,トークンレベルの音響劣化スコアに基づいて,音声および視覚的特徴を適応的に重み付けする新しいAVSRフレームワークである,ルータゲート型クロスモーダル機能融合を提案する。
音声-視覚機能融合型ルータを用いて、信頼できない音声トークンをダウンウェイトし、デコーダ層内のゲートクロスアテンションを通じて視覚的手がかりを補強する。
これにより、音質が劣化すると、モデルが視覚的モダリティに傾くことができる。
LRS3の実験では,AV-HuBERTと比較して単語誤り率を16.51-42.67%削減できることが示されている。
アブレーション研究は、ルータとゲーティング機構の両方が現実の音響雑音下での堅牢性向上に寄与していることを確認した。
関連論文リスト
- Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for
Robust Audio-Visual Speech Recognition [21.477900473255264]
AVSRの強靭性を高めるために,雑音不変の視覚的モダリティを提案する。
人間の知覚のメカニズムに触発されて,モーダリティ伝達を実装するユニバーサルビセム・音素マッピング (UniVPM) 手法を提案する。
提案手法は, 各種ノイズ, 清潔な条件下での最先端性を実現する。
論文 参考訳(メタデータ) (2023-06-18T13:53:34Z) - Should we hard-code the recurrence concept or learn it instead ?
Exploring the Transformer architecture for Audio-Visual Speech Recognition [10.74796391075403]
本稿では,最近提案されたTransformerブロックに,Long Short-term Memory(LSTM)ブロックを置き換えた AV Align の変種について述べる。
また,トランスフォーマーはクロスモーダルなモノトニックアライメントも学習するが,LSTMモデルと同じ視覚収束問題に悩まされている。
論文 参考訳(メタデータ) (2020-05-19T09:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。