論文の概要: LMFCA-Net: A Lightweight Model for Multi-Channel Speech Enhancement with Efficient Narrow-Band and Cross-Band Attention
- arxiv url: http://arxiv.org/abs/2502.11462v1
- Date: Mon, 17 Feb 2025 05:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:20.622504
- Title: LMFCA-Net: A Lightweight Model for Multi-Channel Speech Enhancement with Efficient Narrow-Band and Cross-Band Attention
- Title(参考訳): LMFCA-Net:高能率狭帯域・クロスバンド注意によるマルチチャネル音声強調のための軽量モデル
- Authors: Yaokai Zhang, Hanchen Pei, Wanqi Wang, Gongping Huang,
- Abstract要約: 本稿では,完全連結注意(LMFCA-Net)を分離した軽量マルチチャネル音声強調ネットワークを提案する。
提案するLMFCA-Netは、時間軸切り離し完全連結注意(T-FCA)と周波数軸切り離し完全連結注意(F-FCA)機構を導入し、長距離狭帯域およびクロスバンド情報を繰り返しユニットなしで効果的に捕捉する。
- 参考スコア(独自算出の注目度): 4.489833733302935
- License:
- Abstract: Deep learning based end-to-end multi-channel speech enhancement methods have achieved impressive performance by leveraging sub-band, cross-band, and spatial information. However, these methods often demand substantial computational resources, limiting their practicality on terminal devices. This paper presents a lightweight multi-channel speech enhancement network with decoupled fully connected attention (LMFCA-Net). The proposed LMFCA-Net introduces time-axis decoupled fully-connected attention (T-FCA) and frequency-axis decoupled fully-connected attention (F-FCA) mechanisms to effectively capture long-range narrow-band and cross-band information without recurrent units. Experimental results show that LMFCA-Net performs comparably to state-of-the-art methods while significantly reducing computational complexity and latency, making it a promising solution for practical applications.
- Abstract(参考訳): 深層学習に基づくエンドツーエンドのマルチチャネル音声強調手法は,サブバンド,クロスバンド,空間情報を活用することで,優れた性能を実現している。
しかし、これらの手法は多くの場合、端末装置での実用性を制限し、かなりの計算資源を必要とする。
本稿では,完全連結注意(LMFCA-Net)を分離した軽量なマルチチャネル音声強調ネットワークを提案する。
提案するLMFCA-Netは、時間軸切り離し完全連結注意(T-FCA)と周波数軸切り離し完全連結注意(F-FCA)機構を導入し、長距離狭帯域およびクロスバンド情報を繰り返しユニットなしで効果的に捕捉する。
実験結果から,LMFCA-Netは計算複雑性とレイテンシを著しく低減し,最先端の手法と相容れない性能を示した。
関連論文リスト
- Communication-Efficient Federated Learning by Quantized Variance Reduction for Heterogeneous Wireless Edge Networks [55.467288506826755]
フェデレーテッド・ラーニング(FL)は、無線エッジネットワークにおけるローカル・プライバシ・アウェア・コラボレーティブ・モデルトレーニングの有効なソリューションとして認識されている。
既存の通信効率の高いFLアルゴリズムは、デバイス間の大きなばらつきを低減できない。
本稿では,高度分散還元方式に依存する新しい通信効率FLアルゴリズムであるFedQVRを提案する。
論文 参考訳(メタデータ) (2025-01-20T04:26:21Z) - USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。
有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。
ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文 参考訳(メタデータ) (2024-12-18T11:04:58Z) - SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion [59.96233305733875]
時系列予測は、金融、交通管理、エネルギー、医療など様々な分野で重要な役割を果たしている。
いくつかの方法は、注意やミキサーのようなメカニズムを利用して、チャネル相関をキャプチャすることでこの問題に対処する。
本稿では,効率的なモデルであるSOFTS(Series-cOre Fused Time Series forecaster)を提案する。
論文 参考訳(メタデータ) (2024-04-22T14:06:35Z) - SINR-Aware Deep Reinforcement Learning for Distributed Dynamic Channel
Allocation in Cognitive Interference Networks [10.514231683620517]
本稿では,複数の大規模ネットワークによるキャリヤ間干渉(ICI)とチャネル再利用を経験する実世界のシステムに焦点を当てる。
CARLTON(Channel Allocation RL To Overlapped Networks)と呼ばれる分散DCAのための新しいマルチエージェント強化学習フレームワークを提案する。
本結果は,従来の最先端手法に比べて優れた効率性を示し,優れた性能とロバストな一般化を示した。
論文 参考訳(メタデータ) (2024-02-17T20:03:02Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Multi-Loss Convolutional Network with Time-Frequency Attention for
Speech Enhancement [16.701596804113553]
我々はDPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。
DPRNNと比較して、軸方向の自己アテンションはメモリと計算の必要性を大幅に減らす。
本稿では,WavLMネットワークを用いた多分解能STFT損失とWavLM損失のジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-15T08:48:19Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated
Split Learning [56.125720497163684]
無線ネットワークにおけるハイブリッド・フェデレーション・スプリット・ラーニング・フレームワークを提案する。
ラベル共有のないモデル分割のための並列計算方式を設計し,提案方式が収束速度に与える影響を理論的に解析する。
論文 参考訳(メタデータ) (2022-09-02T10:29:56Z) - Triple M: A Practical Neural Text-to-speech System With Multi-guidance
Attention And Multi-band Multi-time Lpcnet [4.552464397842643]
本稿では,マルチガイダンスアテンションとマルチバンドマルチタイムLPCNetを備えたSeq2seqモデルからなる,Triple Mという実用的なニューラルテキスト音声合成システムを提案する。
前者は、異なる注意機構のアライメント結果を用いて、基本的な注意機構の学習を誘導し、推論中の基本的な注意機構のみを保持する。
後者はマルチバンド戦略とマルチタイム戦略を組み合わせることで、LPCNetの計算複雑性を低減する。
論文 参考訳(メタデータ) (2021-01-30T15:38:36Z) - On the Use of Audio Fingerprinting Features for Speech Enhancement with
Generative Adversarial Network [24.287237963000745]
短周期フーリエ変換(STFT)やMel-Frequency Cepstral Coefficients(MFCC)のような時間周波数領域の特徴は、多くのアプローチで好まれる。
MFCCはコンパクトな表現を提供するが、各メルスケールサブバンドのエネルギーのダイナミクスと分布を無視する。
本研究では、GAN(Generative Adversarial Network)に基づく音声強調システムを構築し、AFPと正規化スペクトルサブバンドセントロイド(NSSC)を組み合わせた実験を行った。
論文 参考訳(メタデータ) (2020-07-27T00:44:16Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。