論文の概要: IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual
Speech Separation
- arxiv url: http://arxiv.org/abs/2308.08143v3
- Date: Fri, 2 Feb 2024 09:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 20:07:29.311230
- Title: IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual
Speech Separation
- Title(参考訳): IIANet:オーディオ・ビジュアル音声分離のためのモダリティ内およびモダリティ間アテンションネットワーク
- Authors: Kai Li, Runxuan Yang, Fuchun Sun, Xiaolin Hu
- Abstract要約: 音声・視覚的特徴融合に注意機構を利用するIIANet(Intra- and Inter-Attention Network)と呼ばれる新しいモデルを提案する。
IIANetは、イントラアテンションブロック(IntraA)とインターアテンションブロック(InterA)の2つのタイプのアテンションブロックで構成されている。
3つの標準オーディオ視覚分離ベンチマーク(LRS2, LRS3, VoxCeleb2)の総合的な実験により,IIANetの有効性が実証された。
- 参考スコア(独自算出の注目度): 36.935137240527204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has made significant progress in designing fusion modules for
audio-visual speech separation. However, they predominantly focus on
multi-modal fusion at a single temporal scale of auditory and visual features
without employing selective attention mechanisms, which is in sharp contrast
with the brain. To address this issue, We propose a novel model called Intra-
and Inter-Attention Network (IIANet), which leverages the attention mechanism
for efficient audio-visual feature fusion. IIANet consists of two types of
attention blocks: intra-attention (IntraA) and inter-attention (InterA) blocks,
where the InterA blocks are distributed at the top, middle and bottom of
IIANet. Heavily inspired by the way how human brain selectively focuses on
relevant content at various temporal scales, these blocks maintain the ability
to learn modality-specific features and enable the extraction of different
semantics from audio-visual features. Comprehensive experiments on three
standard audio-visual separation benchmarks (LRS2, LRS3, and VoxCeleb2)
demonstrate the effectiveness of IIANet, outperforming previous
state-of-the-art methods while maintaining comparable inference time. In
particular, the fast version of IIANet (IIANet-fast) has only 7% of CTCNet's
MACs and is 40% faster than CTCNet on CPUs while achieving better separation
quality, showing the great potential of attention mechanism for efficient and
effective multimodal fusion.
- Abstract(参考訳): 最近の研究は、音声と視覚の分離のための融合モジュールの設計に大きな進歩をもたらした。
しかし、それらは主に、選択的注意機構を使わずに、聴覚と視覚の特徴の単一の時間スケールでのマルチモーダル融合に焦点を当てている。
この問題に対処するために,音声・視覚的特徴融合のための注意機構を活用するIIANet(Intra and Inter-Attention Network)という新しいモデルを提案する。
IIANetは、イントラアテンションブロック(IntraA)とインターアテンションブロック(InterA)の2つのタイプのアテンションブロックで構成されている。
人間の脳が様々な時間スケールで関連コンテンツに選択的にフォーカスする方法に触発されたこれらのブロックは、モダリティ固有の特徴を学習し、オーディオ視覚的特徴から異なる意味を抽出できる能力を維持している。
3つの標準オーディオ視覚分離ベンチマーク(LRS2, LRS3, VoxCeleb2)の総合的な実験により,IIANetの有効性が実証された。
特に、IIANetの高速バージョン(IIANet-fast)は、CTCNetのMACの7%しか持たず、CPU上のCTCNetよりも40%高速であり、より優れた分離品質を実現し、効率的で効果的なマルチモーダル融合のための注意機構の可能性を示している。
関連論文リスト
- Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Multi-Resolution Audio-Visual Feature Fusion for Temporal Action
Localization [8.633822294082943]
本稿ではMRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を紹介する。
MRAV-FFは、異なる時間分解能間でオーディオ視覚データをマージする革新的な手法である。
論文 参考訳(メタデータ) (2023-10-05T10:54:33Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition [13.994609732846344]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。
本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。
その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文 参考訳(メタデータ) (2021-11-09T16:01:56Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。