論文の概要: SCANet: A Self- and Cross-Attention Network for Audio-Visual Speech
Separation
- arxiv url: http://arxiv.org/abs/2308.08143v2
- Date: Mon, 25 Sep 2023 15:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 01:20:01.261038
- Title: SCANet: A Self- and Cross-Attention Network for Audio-Visual Speech
Separation
- Title(参考訳): SCANet: 音声と音声の分離のための自律的・横断的ネットワーク
- Authors: Kai Li, Runxuan Yang, Xiaolin Hu
- Abstract要約: 本稿では,音声・視覚的特徴融合のための自己注意ネットワーク(SCANet)を提案する。
3つの標準オーディオ視覚分離ベンチマークの実験は、SCANetの有効性を実証している。
- 参考スコア(独自算出の注目度): 22.812962733245026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of different modalities, such as audio and visual
information, plays a crucial role in human perception of the surrounding
environment. Recent research has made significant progress in designing fusion
modules for audio-visual speech separation. However, they predominantly focus
on multi-modal fusion architectures situated either at the top or bottom
positions, rather than comprehensively considering multi-modal fusion at
various hierarchical positions within the network. In this paper, we propose a
novel model called self- and cross-attention network (SCANet), which leverages
the attention mechanism for efficient audio-visual feature fusion. SCANet
consists of two types of attention blocks: self-attention (SA) and
cross-attention (CA) blocks, where the CA blocks are distributed at the top
(TCA), middle (MCA) and bottom (BCA) of SCANet. These blocks maintain the
ability to learn modality-specific features and enable the extraction of
different semantics from audio-visual features. Comprehensive experiments on
three standard audio-visual separation benchmarks (LRS2, LRS3, and VoxCeleb2)
demonstrate the effectiveness of SCANet, outperforming existing
state-of-the-art (SOTA) methods while maintaining comparable inference time.
- Abstract(参考訳): 音声や視覚情報などの様々なモダリティの統合は、周囲の環境に対する人間の認識において重要な役割を果たす。
最近の研究は、音声と視覚の分離のための融合モジュールの設計に大きな進歩をもたらした。
しかし、主にネットワーク内の様々な階層的な位置におけるマルチモーダル融合を包括的に考慮するのではなく、トップまたはボトム位置に位置するマルチモーダル融合アーキテクチャに焦点を当てた。
本稿では,音声・視覚的特徴融合のためのアテンション機構を活用する,自己・クロスアテンションネットワーク(SCANet)という新しいモデルを提案する。
SCANetは、セルフアテンション(SA)とクロスアテンション(CA)の2つのタイプのアテンションブロックで構成されており、CAブロックは、SCANetの上位(TCA)、中間(MCA)、下部(BCA)に分散されている。
これらのブロックは、モダリティ固有の特徴を学習し、オーディオ視覚的特徴から異なる意味を抽出することができる。
3つの標準オーディオ視覚分離ベンチマーク(LRS2, LRS3, VoxCeleb2)の総合的な実験により、SCANetの有効性が実証された。
関連論文リスト
- Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Multi-Resolution Audio-Visual Feature Fusion for Temporal Action
Localization [8.633822294082943]
本稿ではMRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を紹介する。
MRAV-FFは、異なる時間分解能間でオーディオ視覚データをマージする革新的な手法である。
論文 参考訳(メタデータ) (2023-10-05T10:54:33Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition [13.994609732846344]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。
本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。
その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文 参考訳(メタデータ) (2021-11-09T16:01:56Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。