論文の概要: RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation
- arxiv url: http://arxiv.org/abs/2309.17189v4
- Date: Thu, 21 Mar 2024 09:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 20:06:30.807879
- Title: RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation
- Title(参考訳): RTFS-Net: 効率的な音声・映像音声分離のための繰り返し時間周波数モデリング
- Authors: Samuel Pegg, Kai Li, Xiaolin Hu,
- Abstract要約: 本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
- 参考スコア(独自算出の注目度): 18.93255531121519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual speech separation methods aim to integrate different modalities to generate high-quality separated speech, thereby enhancing the performance of downstream tasks such as speech recognition. Most existing state-of-the-art (SOTA) models operate in the time domain. However, their overly simplistic approach to modeling acoustic features often necessitates larger and more computationally intensive models in order to achieve SOTA performance. In this paper, we present a novel time-frequency domain audio-visual speech separation method: Recurrent Time-Frequency Separation Network (RTFS-Net), which applies its algorithms on the complex time-frequency bins yielded by the Short-Time Fourier Transform. We model and capture the time and frequency dimensions of the audio independently using a multi-layered RNN along each dimension. Furthermore, we introduce a unique attention-based fusion technique for the efficient integration of audio and visual information, and a new mask separation approach that takes advantage of the intrinsic spectral nature of the acoustic features for a clearer separation. RTFS-Net outperforms the prior SOTA method in both inference speed and separation quality while reducing the number of parameters by 90% and MACs by 83%. This is the first time-frequency domain audio-visual speech separation method to outperform all contemporary time-domain counterparts.
- Abstract(参考訳): 音声-視覚的音声分離法は,高品質な分離音声を生成するために,異なるモードを統合することを目的としており,音声認識などの下流タスクの性能を向上させる。
既存のSOTA(State-of-the-art)モデルは時間領域で動作する。
しかし、音響特性をモデル化するための過度に単純化されたアプローチは、SOTAの性能を達成するために、より大きくより計算集約的なモデルを必要とすることが多い。
本稿では、短時間フーリエ変換によって得られる複雑な時間周波数ビンに対して、そのアルゴリズムを適用するRTFS-Net(Recurrent Time-Frequency Separation Network)を提案する。
我々は、各次元に沿って多層RNNを用いて、オーディオの時間と周波数の次元を独立にモデル化し、キャプチャする。
さらに、音声と視覚情報を効率的に統合するためのユニークな注意に基づく融合手法と、音響特性の固有のスペクトル特性を利用してより明瞭な分離を行う新しいマスク分離手法を導入する。
RTFS-Netは、予測速度と分離品質の両方で従来のSOTA法より優れ、パラメータの数を90%、MACを83%削減した。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
関連論文リスト
- TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down
Fusion [21.278294846228935]
Top-Down-Fusion Net (TDFNet) は、音声・視覚音声分離のための最先端(SOTA)モデルである。
TDFNetは、以前のSOTAメソッドであるCTCNetと比較して、すべてのパフォーマンス指標で最大10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-01-25T13:47:22Z) - DPATD: Dual-Phase Audio Transformer for Denoising [25.097894984130733]
本稿では,denoising (DPATD) のための2相音響変換器を提案する。
メモリに圧縮された説明可能な注意は効率的で、頻繁に使用される自己注意モジュールよりも早く収束する。
論文 参考訳(メタデータ) (2023-10-30T14:44:59Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。