論文の概要: AUREXA-SE: Audio-Visual Unified Representation Exchange Architecture with Cross-Attention and Squeezeformer for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2510.05295v1
- Date: Mon, 06 Oct 2025 19:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 22:13:09.307313
- Title: AUREXA-SE: Audio-Visual Unified Representation Exchange Architecture with Cross-Attention and Squeezeformer for Speech Enhancement
- Title(参考訳): AUREXA-SE:音声強調のためのクロスアテンションとスキーゼフォーマを用いたオーディオ・ビジュアル統一表現交換アーキテクチャ
- Authors: M. Sajid, Deepanshu Gupta, Yash Modi, Sanskriti Jain, Harshith Jai Surya Ganji, A. Rahaman, Harshvardhan Choudhary, Nasir Saleem, Amir Hussain, M. Tanveer,
- Abstract要約: AUREXA-SE(音声強調のためのクロスアテンションとスキーゼフォーマを備えた視覚統合表現交換アーキテクチャ)を提案する。
AUREXA-SEは、U-Netベースの1D畳み込みエンコーダを用いて、生音声波形と視覚的手がかりを併用する。
アーキテクチャの中心は、モダリティ間の深いコンテキスト融合を促進する、新しい双方向のクロスアテンションメカニズムである。
- 参考スコア(独自算出の注目度): 14.435791985655117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose AUREXA-SE (Audio-Visual Unified Representation Exchange Architecture with Cross-Attention and Squeezeformer for Speech Enhancement), a progressive bimodal framework tailored for audio-visual speech enhancement (AVSE). AUREXA-SE jointly leverages raw audio waveforms and visual cues by employing a U-Net-based 1D convolutional encoder for audio and a Swin Transformer V2 for efficient and expressive visual feature extraction. Central to the architecture is a novel bidirectional cross-attention mechanism, which facilitates deep contextual fusion between modalities, enabling rich and complementary representation learning. To capture temporal dependencies within the fused embeddings, a stack of lightweight Squeezeformer blocks combining convolutional and attention modules is introduced. The enhanced embeddings are then decoded via a U-Net-style decoder for direct waveform reconstruction, ensuring perceptually consistent and intelligible speech output. Experimental evaluations demonstrate the effectiveness of AUREXA-SE, achieving significant performance improvements over noisy baselines, with STOI of 0.516, PESQ of 1.323, and SI-SDR of -4.322 dB. The source code of AUREXA-SE is available at https://github.com/mtanveer1/AVSEC-4-Challenge-2025.
- Abstract(参考訳): 本稿では,AUREXA-SE (Audio-Visual Unified Representation Exchange Architecture with Cross-Attention and Squeezeformer for Speech Enhancement)を提案する。
AUREXA-SEは、音声のためのU-Netベースの1D畳み込みエンコーダと、効率よく表現力のある視覚特徴抽出のためのSwin Transformer V2を用いて、生の音声波形と視覚的手がかりを併用する。
アーキテクチャの中心は、モダリティ間の深いコンテキスト融合を容易にし、リッチで相補的な表現学習を可能にする、新しい双方向のクロスアテンションメカニズムである。
融合埋め込み内での時間的依存関係をキャプチャするために、畳み込みとアテンションモジュールを組み合わせた軽量なSqueezeformerブロックが導入された。
拡張された埋め込みは、直接波形再構成のためのU-Netスタイルのデコーダを介してデコードされ、知覚的に一貫性があり、理解可能な音声出力が保証される。
AUREXA-SEの有効性を実験的に評価し、0.516のSTOI、1.323のPSSQ、-4.322dBのSI-SDRによるノイズベースラインに対する大幅な性能改善を実現した。
AUREXA-SEのソースコードはhttps://github.com/mtanveer1/AVSEC-4-Challenge-2025で公開されている。
関連論文リスト
- AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition [2.4842074869626396]
双方向モダリティ向上に基づく新しいAVSRフレームワークAD-AVSRを提案する。
具体的には、まず、複数の視点から音声表現を豊かにするための音声二重ストリーム符号化方式を導入する。
我々は、無関係または弱相関のオーディオ視覚対をフィルタリングするために閾値に基づく選択機構を採用する。
論文 参考訳(メタデータ) (2025-08-11T04:23:08Z) - LSTMSE-Net: Long Short Term Speech Enhancement Network for Audio-visual Speech Enhancement [4.891339883978289]
長期記憶音声強調ネットワーク(LSTMSE-Net)を提案する。
この手法は、視覚情報と音声情報の相補的な性質を活用し、音声信号の品質を高める。
システムは、視覚的および音声的特徴を拡大し強調し、それをセパレータネットワークを介して上回り、最適化された音声強調を行う。
論文 参考訳(メタデータ) (2024-09-03T19:52:49Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Attentive Fusion Enhanced Audio-Visual Encoding for Transformer Based
Robust Speech Recognition [27.742673824969238]
提案手法は, クリーンで目立たない騒音条件下での認識率を平均0.55%, 4.51%, 4.61%向上させることができる。
LRS3-TEDデータセットの実験により、提案手法は平均0.55%、4.51%、4.61%の認識率を向上できることが示された。
論文 参考訳(メタデータ) (2020-08-06T14:39:07Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。