論文の概要: EffiFusion-GAN: Efficient Fusion Generative Adversarial Network for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2508.14525v1
- Date: Wed, 20 Aug 2025 08:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.390896
- Title: EffiFusion-GAN: Efficient Fusion Generative Adversarial Network for Speech Enhancement
- Title(参考訳): EffiFusion-GAN:音声強調のための効率的な融合生成対向ネットワーク
- Authors: Bin Wen, Tien-Ping Tan,
- Abstract要約: 本稿では,音声強調のための軽量かつ強力なモデルであるEffiFusion-GANを紹介する。
モデルはマルチスケールブロック内に深度的に分離可能な畳み込みを統合し、様々な音響特性を効率的に捉える。
EffiFusion-GANはPSSQスコアが3.45で、同じパラメータ設定で既存のモデルより優れている。
- 参考スコア(独自算出の注目度): 1.144423767174855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce EffiFusion-GAN (Efficient Fusion Generative Adversarial Network), a lightweight yet powerful model for speech enhancement. The model integrates depthwise separable convolutions within a multi-scale block to capture diverse acoustic features efficiently. An enhanced attention mechanism with dual normalization and residual refinement further improves training stability and convergence. Additionally, dynamic pruning is applied to reduce model size while maintaining performance, making the framework suitable for resource-constrained environments. Experimental evaluation on the public VoiceBank+DEMAND dataset shows that EffiFusion-GAN achieves a PESQ score of 3.45, outperforming existing models under the same parameter settings.
- Abstract(参考訳): 本稿では,音声強調のための軽量かつ強力なモデルであるEffiFusion-GAN(Efficient Fusion Generative Adversarial Network)を紹介する。
モデルはマルチスケールブロック内に深度的に分離可能な畳み込みを統合し、様々な音響特性を効率的に捉える。
二重正規化と残留精製による注意機構の強化により、トレーニングの安定性と収束性がさらに向上する。
さらに、動的プルーニングは、性能を維持しながらモデルサイズを減らすために適用され、リソース制約のある環境に適したフレームワークとなる。
パブリックなVoiceBank+DEMANDデータセットの実験的評価は、EffiFusion-GANがPESQスコア3.45を達成し、同じパラメータ設定で既存のモデルより優れていることを示している。
関連論文リスト
- Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation [49.202383675543466]
本稿では,単一画像から3次元モデルを生成する拡散過程の高速化に取り組むために,Acc3Dを提案する。
数段階の推論によって高品質な再構成を導出するため,ランダムノイズ状態におけるスコア関数の学習を規則化する上で重要な課題を強調した。
論文 参考訳(メタデータ) (2025-03-20T09:18:10Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:22:59Z) - Efficient Monaural Speech Enhancement using Spectrum Attention Fusion [15.8309037583936]
本稿では,自己意図の表現性を保ちながら,モデルの複雑さを著しく低減する音声強調モデルの改良について述べる。
音声変換器において,複数の自己認識層を置き換えるための畳み込みモジュールを構築し,より効率的にスペクトル特徴を融合させる。
提案モデルでは,SOTAモデルに対して同等あるいはより良い結果が得られるが,Voice Bank + DEMANDデータセット上では,パラメータが0.58Mよりもはるかに小さい。
論文 参考訳(メタデータ) (2023-08-04T11:39:29Z) - An Efficient Speech Separation Network Based on Recurrent Fusion Dilated
Convolution and Channel Attention [0.2538209532048866]
本稿では,拡張畳み込み,マルチスケール融合(MSF),チャネルアテンションを組み合わせた効率的な音声分離ニューラルネットワーク ARFDCN を提案する。
実験結果から,本モデルでは性能と計算効率のバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T13:30:27Z) - Improved Quasi-Recurrent Neural Network for Hyperspectral Image
Denoising [9.723155514555765]
いくつかの簡単な修正でQRNN3Dの性能が大幅に改善できることが示される。
本稿では,そのバニラ付加スキップ接続を置き換え,エンコーダとデコーダの機能の融合を図るための適応融合モジュールを提案する。
各種ノイズ設定実験の結果,提案手法の有効性と性能が示された。
論文 参考訳(メタデータ) (2022-11-27T12:38:03Z) - Dynamic Kernels and Channel Attention with Multi-Layer Embedding
Aggregation for Speaker Verification [28.833851817220616]
本稿では,畳み込みニューラルネットワークにおける注意に基づく動的カーネルを用いたモデル分解能の向上手法を提案する。
提案した動的畳み込みモデルはVoxCeleb1テストセットで1.62%のEERと0.18のミニDCFを達成し、ECAPA-TDNNと比較して17%改善した。
論文 参考訳(メタデータ) (2022-11-03T17:13:28Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。