論文の概要: MUSE: Flexible Voiceprint Receptive Fields and Multi-Path Fusion Enhanced Taylor Transformer for U-Net-based Speech Enhancement
- arxiv url: http://arxiv.org/abs/2406.04589v2
- Date: Wed, 19 Jun 2024 06:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 01:55:24.451106
- Title: MUSE: Flexible Voiceprint Receptive Fields and Multi-Path Fusion Enhanced Taylor Transformer for U-Net-based Speech Enhancement
- Title(参考訳): MUSE:U-Net音声強調のためのフレキシブル音声プリント受信場とマルチパス融合型テイラー変換器
- Authors: Zizhen Lin, Xiaoting Chen, Junyu Wang,
- Abstract要約: マルチパス強化テイラー (MET) 変換器を用いた音声強調 (MUSE) のためのU-netを導入する。
提案手法は,Deformable Embedding (DE) を組み込んだ新しいMulti-path Enhanced Taylor (MET) Transformer Blockを導入し,音声プリントの柔軟な受容場を実現する。
MUSEは、トレーニングとデプロイメントの両方のコストを大幅に削減しながら、競争力のある性能を実現している。
- 参考スコア(独自算出の注目度): 0.2246842898152672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving a balance between lightweight design and high performance remains a challenging task for speech enhancement. In this paper, we introduce Multi-path Enhanced Taylor (MET) Transformer based U-net for Speech Enhancement (MUSE), a lightweight speech enhancement network built upon the Unet architecture. Our approach incorporates a novel Multi-path Enhanced Taylor (MET) Transformer block, which integrates Deformable Embedding (DE) to enable flexible receptive fields for voiceprints. The MET Transformer is uniquely designed to fuse Channel and Spatial Attention (CSA) branches, facilitating channel information exchange and addressing spatial attention deficits within the Taylor-Transformer framework. Through extensive experiments conducted on the VoiceBank+DEMAND dataset, we demonstrate that MUSE achieves competitive performance while significantly reducing both training and deployment costs, boasting a mere 0.51M parameters.
- Abstract(参考訳): 軽量設計とハイパフォーマンスのバランスを取ることは、音声強調の難しい課題である。
本稿では,Unetアーキテクチャ上に構築された軽量音声強調ネットワークであるMUSE (Multi-path Enhanced Taylor) Transformerについて述べる。
提案手法は,Deformable Embedding (DE) を組み込んだ新しいMulti-path Enhanced Taylor (MET) Transformer Blockを導入し,音声プリントの柔軟な受容場を実現する。
MET Transformerは、チャンネル情報交換を容易にし、Taylor-Transformerフレームワーク内の空間的注意欠陥に対応するために、CSA(Channel and Space Attention)ブランチを融合させるように設計されている。
VoiceBank+DEMANDデータセットで実施された広範な実験を通じて、MUSEは、トレーニングとデプロイメントの両方のコストを大幅に削減しつつ、競争性能を達成し、わずか0.01Mのパラメータを誇っていることを実証した。
関連論文リスト
- TransformerFAM: Feedback attention is working memory [18.005034679674274]
本稿では,フィードバックループを利用した新しいトランスフォーマーアーキテクチャを提案する。
TransformerFAMは追加の重みを必要とせず、事前訓練されたモデルとのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-04-14T07:43:45Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor
Formula for Image Dehazing [88.61523825903998]
トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋な畳み込みニューラルネットワーク(CNN)を置き換えるようになった。
そこで本研究では,Taylor拡張を応用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。
提案するTransformerにマルチスケールパッチを組み込んだマルチブランチアーキテクチャを導入する。
Taylor式(MB-TaylorFormer)により拡張されたMulti-branch Transformerと呼ばれる我々のモデルは、パッチ埋め込み段階でより柔軟に粗さを微細な特徴に埋め込むことができ、計算コストに制限のある長距離画素相互作用を捉えることができる。
論文 参考訳(メタデータ) (2023-08-27T08:10:23Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Unfolding Once is Enough: A Deployment-Friendly Transformer Unit for
Super-Resolution [16.54421804141835]
SISRモデルの中間機能の高解像度化は、メモリと計算要求を増加させる。
本稿では、SISRタスクのためのデプロイメントフレンドリな内部パッチ変換ネットワーク(DITN)を提案する。
我々のモデルは、質的かつ定量的な性能と高いデプロイメント効率で競合する結果を得ることができる。
論文 参考訳(メタデータ) (2023-08-05T05:42:51Z) - Improving Transformer-based Networks With Locality For Automatic Speaker
Verification [40.06788577864032]
話者埋め込み抽出のためのトランスフォーマーベースアーキテクチャが検討されている。
本研究では,2方向の局所性モデルを用いてトランスフォーマーを改良する。
本稿では,VoxCelebデータセットと大規模Microsoft内部多言語(MS-internal)データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-17T01:04:51Z) - Foundation Transformers [105.06915886136524]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。
本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文 参考訳(メタデータ) (2022-10-12T17:16:27Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z) - Multi-Channel Transformer Transducer for Speech Recognition [15.268402294151468]
本稿では,新しい音声認識モデルであるMulti-Channel Transformer Transducer(MCTT)を提案する。
MCTTは、エンドツーエンドのマルチチャネルトレーニング、低コスト、低レイテンシを備えており、オンデバイス音声認識におけるストリーミングデコーディングに適している。
論文 参考訳(メタデータ) (2021-08-30T01:50:51Z) - Multi-Unit Transformers for Neural Machine Translation [51.418245676894465]
マルチユニット変換器 (MUTE) を提案し, 変換器の表現性を向上する。
具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデル性能を改善し、多様性を導入することを示す。
論文 参考訳(メタデータ) (2020-10-21T03:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。