論文の概要: IMSE: Efficient U-Net-based Speech Enhancement using Inception Depthwise Convolution and Amplitude-Aware Linear Attention
- arxiv url: http://arxiv.org/abs/2511.14515v1
- Date: Tue, 18 Nov 2025 14:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.147237
- Title: IMSE: Efficient U-Net-based Speech Enhancement using Inception Depthwise Convolution and Amplitude-Aware Linear Attention
- Title(参考訳): IMSE:インセプション奥行き畳み込みと振幅対応線形注意を用いた効率的なU-Net音声強調
- Authors: Xinxin Tang, Bin Qin, Yufang Li,
- Abstract要約: 本稿では,系統的に最適化された超軽量ネットワークIMSEを提案する。
1) MET モジュールを Amplitude-Aware Linear Attention (MALA) に、2) Deformable Embedding (DE) モジュールを Inception Depthwise Convolution (IDConv) に置き換える。
実験では、IMSEはパラメータ数を16.8%(0.513Mから0.427M)削減し、PESQ測定値(3.373)の最先端技術に匹敵する競争性能を達成する。
- 参考スコア(独自算出の注目度): 2.3959703715401903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving a balance between lightweight design and high performance remains a significant challenge for speech enhancement (SE) tasks on resource-constrained devices. Existing state-of-the-art methods, such as MUSE, have established a strong baseline with only 0.51M parameters by introducing a Multi-path Enhanced Taylor (MET) transformer and Deformable Embedding (DE). However, an in-depth analysis reveals that MUSE still suffers from efficiency bottlenecks: the MET module relies on a complex "approximate-compensate" mechanism to mitigate the limitations of Taylor-expansion-based attention, while the offset calculation for deformable embedding introduces additional computational burden. This paper proposes IMSE, a systematically optimized and ultra-lightweight network. We introduce two core innovations: 1) Replacing the MET module with Amplitude-Aware Linear Attention (MALA). MALA fundamentally rectifies the "amplitude-ignoring" problem in linear attention by explicitly preserving the norm information of query vectors in the attention calculation, achieving efficient global modeling without an auxiliary compensation branch. 2) Replacing the DE module with Inception Depthwise Convolution (IDConv). IDConv borrows the Inception concept, decomposing large-kernel operations into efficient parallel branches (square, horizontal, and vertical strips), thereby capturing spectrogram features with extremely low parameter redundancy. Extensive experiments on the VoiceBank+DEMAND dataset demonstrate that, compared to the MUSE baseline, IMSE significantly reduces the parameter count by 16.8\% (from 0.513M to 0.427M) while achieving competitive performance comparable to the state-of-the-art on the PESQ metric (3.373). This study sets a new benchmark for the trade-off between model size and speech quality in ultra-lightweight speech enhancement.
- Abstract(参考訳): 軽量設計とハイパフォーマンスのバランスを取ることは、リソース制約されたデバイス上での音声強調(SE)タスクにとって重要な課題である。
MUSEのような既存の最先端の手法は、Multi-path Enhanced Taylor (MET) 変換器とDeformable Embedding (DE)を導入して、0.51Mパラメータしか持たない強力なベースラインを確立している。
しかし、深い分析の結果、MUSEは依然として効率のボトルネックに悩まされていることが判明した: METモジュールはテイラー展開に基づく注意の制限を軽減するために複雑な「近似補償」機構に依存し、一方変形可能な埋め込みのオフセット計算は、さらなる計算負担をもたらす。
本稿では,系統的に最適化された超軽量ネットワークIMSEを提案する。
中心となる2つのイノベーションを紹介します。
1) Amplitude-Aware Linear Attention (MALA)によるMETモジュールのリプレース。
MALAは、アテンション計算におけるクエリベクトルのノルム情報を明示的に保存し、補助補償分岐なしで効率的なグローバルモデリングを行うことにより、線形注意における「振幅無視」問題を根本的に修正する。
2)DEモジュールをInception Depthwise Convolution (IDConv)で置き換える。
IDConvはインセプションの概念を借用し、大きなカーネル操作を効率的な並列分岐(二乗、水平、垂直のストリップ)に分解し、パラメータ冗長性が非常に低いスペクトル特徴をキャプチャする。
VoiceBank+DEMANDデータセットの大規模な実験では、MUSEベースラインと比較して、IMSEはパラメータ数を16.8\%(0.513Mから0.427M)削減し、PESQメトリック(3.373)の最先端技術に匹敵する競争性能を達成した。
本研究は,超軽量音声強調におけるモデルサイズと音声品質のトレードオフに関する新しいベンチマークを作成する。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection [4.5138645285711165]
LSP-ST(Ladder Shape-Biased Side-Tuning)を提案する。
学習可能なパラメータは4.72Mしかなく、LSP-STは複数の赤外線小ターゲット検出ベンチマークで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - Transformer-Driven Neural Beamforming with Imperfect CSI in Urban Macro Wireless Channels [27.445841110148674]
本研究では,不完全なチャネル状態情報下でのビーム形成重みを生成するために,深層的に分離可能な畳み込みと変圧器を統合した新しい教師なしディープラーニングフレームワークを提案する。
主な目標は、信頼性の高い通信を確保しながら、総和レートを最大化することでスループットを向上させることである。
論文 参考訳(メタデータ) (2025-04-15T23:41:24Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。