論文の概要: AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling
- arxiv url: http://arxiv.org/abs/2406.11619v1
- Date: Mon, 17 Jun 2024 15:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:12:50.384117
- Title: AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling
- Title(参考訳): AV-CrossNet:狭帯域・クロスバンドモデルを利用した音声分離のための音声複合スペクトルマッピングネットワーク
- Authors: Vahid Ahmadi Kalkhorani, Cheng Yu, Anurag Kumar, Ke Tan, Buye Xu, DeLiang Wang,
- Abstract要約: 本稿では,音声強調,ターゲット話者抽出,複数話者分離のためのglsavシステムであるAV-CrossNetを紹介する。
AV-CrossNetは、最近提案された音声分離のための複雑なスペクトルマッピングを行うネットワークであるCrossNetアーキテクチャから拡張されている。
AV-CrossNetは、トレーニングされていないデータセットやミスマッチしたデータセットであっても、すべてのオーディオ視覚タスクにおける最先端のパフォーマンスを向上することを示す。
- 参考スコア(独自算出の注目度): 48.23652686272613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adding visual cues to audio-based speech separation can improve separation performance. This paper introduces AV-CrossNet, an \gls{av} system for speech enhancement, target speaker extraction, and multi-talker speaker separation. AV-CrossNet is extended from the CrossNet architecture, which is a recently proposed network that performs complex spectral mapping for speech separation by leveraging global attention and positional encoding. To effectively utilize visual cues, the proposed system incorporates pre-extracted visual embeddings and employs a visual encoder comprising temporal convolutional layers. Audio and visual features are fused in an early fusion layer before feeding to AV-CrossNet blocks. We evaluate AV-CrossNet on multiple datasets, including LRS, VoxCeleb, and COG-MHEAR challenge. Evaluation results demonstrate that AV-CrossNet advances the state-of-the-art performance in all audiovisual tasks, even on untrained and mismatched datasets.
- Abstract(参考訳): 音声ベースの音声分離に視覚的手がかりを加えることで、分離性能を向上させることができる。
本稿では,音声強調,ターゲット話者抽出,マルチトーカー話者分離のためのシステムであるAV-CrossNetを紹介する。
AV-CrossNetはCrossNetアーキテクチャから拡張され,グローバルアテンションと位置符号化を利用して,音声分離のための複雑なスペクトルマッピングを行うネットワークである。
視覚的手がかりを効果的に活用するために,提案システムは事前抽出した視覚的埋め込みを取り入れ,時間的畳み込み層からなる視覚的エンコーダを用いる。
オーディオと視覚機能は、AV-CrossNetブロックに供給する前に、初期の融合層で融合される。
我々は、RS、VoxCeleb、COG-MHEARを含む複数のデータセット上でAV-CrossNetを評価する。
AV-CrossNetは、トレーニングされていないデータセットやミスマッチしたデータセットであっても、すべてのオーディオ視覚タスクにおける最先端のパフォーマンスを向上することを示す。
関連論文リスト
- Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。
このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。
本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文 参考訳(メタデータ) (2023-07-03T16:37:10Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - AV-SAM: Segment Anything Model Meets Audio-Visual Localization and
Segmentation [30.756247389435803]
Segment Anything Model (SAM)は、視覚的セグメンテーションタスクにおいて、その強力な効果を示した。
AV-SAMをベースとした,音声に対応する音質オブジェクトマスクを生成可能なフレームワークを提案する。
Flickr-SoundNet と AVSBench のデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-05-03T00:33:52Z) - Attentional Graph Convolutional Network for Structure-aware Audio-Visual
Scene Classification [15.559827597608466]
本稿では,構造認識型音声視覚シーン表現のためのエンドツーエンドフレームワーク,すなわち注目グラフ畳み込みネットワーク(AGCN)を提案する。
音声視覚入力の有声領域と文脈情報を適切に表現するために、有声音響グラフ(SAG)と文脈音響グラフ(CAG)を構築する。
最後に、構築されたグラフは、構造認識型オーディオ視覚シーン認識のためのグラフ畳み込みネットワークを通過する。
論文 参考訳(メタデータ) (2022-12-31T07:56:00Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。