論文の概要: An efficient encoder-decoder architecture with top-down attention for
speech separation
- arxiv url: http://arxiv.org/abs/2209.15200v1
- Date: Fri, 30 Sep 2022 03:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 17:02:49.535753
- Title: An efficient encoder-decoder architecture with top-down attention for
speech separation
- Title(参考訳): 音声分離のためのトップダウン注目を用いた効率的なエンコーダデコーダアーキテクチャ
- Authors: Kai Li, Runxuan Yang, Xiaolin Hu
- Abstract要約: バイオインスパイアされた効率的なエンコーダデコーダアーキテクチャは、TDANetと呼ばれる脳のトップダウンの注意を模倣することで実現している。
本研究は,トップダウン・アテンションが音声分離のより効率的な戦略であることを示唆している。
- 参考スコア(独自算出の注目度): 25.092542427133704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have shown excellent prospects in speech separation
tasks. However, obtaining good results while keeping a low model complexity
remains challenging in real-world applications. In this paper, we provide a
bio-inspired efficient encoder-decoder architecture by mimicking the brain's
top-down attention, called TDANet, with decreased model complexity without
sacrificing performance. The top-down attention in TDANet is extracted by the
global attention (GA) module and the cascaded local attention (LA) layers. The
GA module takes multi-scale acoustic features as input to extract global
attention signal, which then modulates features of different scales by direct
top-down connections. The LA layers use features of adjacent layers as input to
extract the local attention signal, which is used to modulate the lateral input
in a top-down manner. On three benchmark datasets, TDANet consistently achieved
competitive separation performance to previous state-of-the-art (SOTA) methods
with higher efficiency. Specifically, TDANet's multiply-accumulate operations
(MACs) are only 5\% of Sepformer, one of the previous SOTA models, and CPU
inference time is only 10\% of Sepformer. In addition, a large-size version of
TDANet obtained SOTA results on three datasets, with MACs still only 10\% of
Sepformer and the CPU inference time only 24\% of Sepformer. Our study suggests
that top-down attention can be a more efficient strategy for speech separation.
- Abstract(参考訳): ディープニューラルネットワークは、音声分離タスクにおいて優れた将来性を示している。
しかし、実際のアプリケーションでは、モデルの複雑さを低く保ちながら良い結果を得るのは難しい。
本稿では,TDANetと呼ばれる脳のトップダウンの注意を模倣して,バイオインスパイアされた効率的なエンコーダデコーダアーキテクチャを提案する。
TDANetにおけるトップダウンアテンションは、グローバルアテンション(GA)モジュールとカスケードローカルアテンション(LA)レイヤによって抽出される。
GAモジュールはマルチスケール音響特徴を入力としてグローバルアテンション信号を抽出し、直接トップダウン接続によって異なるスケールの特徴を変調する。
LA層は、隣接層の特徴を入力として、局所的な注意信号を抽出し、トップダウン方式で横方向の入力を変調する。
3つのベンチマークデータセットでは、TDANetは従来型のSOTA(State-of-the-art)メソッドとの競合分離性能を高い効率で継続的に達成した。
特に、tdanet の multiply-accumulate operations (mac) は、以前の sota モデルの 1 つである sepformer の 5\% であり、cpu の推論時間は sepformer の 10\% である。
さらに、tdanetの大規模バージョンでは、3つのデータセットでsomaの結果が得られ、macはsepformerの10\%、cpu推論時間はsepformerの24\%であった。
本研究は,トップダウン注意が音声分離のより効率的な戦略であることを示す。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks [0.0]
本研究では,一意に効率的な残差ネットワークであるEfficient-ResNetを用いたエンコーダデコーダアーキテクチャを提案する。
アテンションブーティングゲート(AbG)とアテンションブーイングモジュール(AbM)は、グローバルコンテキストの出力の等価サイズで同変および特徴に基づく意味情報を融合することを目的として展開される。
我々のネットワークは、挑戦的なCamVidとCityscapesのデータセットでテストされており、提案手法により、残余ネットワークに対する大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-01-28T19:58:19Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - ADS_UNet: A Nested UNet for Histopathology Image Segmentation [1.213915839836187]
我々は,浅層層に資源効率の高い深層監視を組み込んだ段階的付加的学習アルゴリズムであるADS UNetを提案する。
ADS_UNetは、CRAGおよびBCSSデータセット上で、最先端のTransformerベースのモデルを1.08および0.6ポイント上回る性能を示す。
論文 参考訳(メタデータ) (2023-04-10T13:08:48Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - EPSANet: An Efficient Pyramid Split Attention Block on Convolutional
Neural Network [41.994043409345956]
本研究では, ピラミッド分割注意(PSA)モジュールという, 軽量かつ効果的に注目する手法を提案する。
ResNetのボトルネックブロックにおける3x3畳み込みをPSAモジュールに置き換えることで、EPSA(Efficient Pyramid Split Attention)と呼ばれる新しい表現ブロックを得る。
EPSAブロックは、確立されたバックボーンネットワークにプラグイン・アンド・プレイコンポーネントとして簡単に追加でき、モデル性能の大幅な改善が達成できる。
論文 参考訳(メタデータ) (2021-05-30T07:26:41Z) - Multi-scale Attention U-Net (MsAUNet): A Modified U-Net Architecture for
Scene Segmentation [1.713291434132985]
画像からコンテキスト情報を用いたシーンセグメンテーションのためのマルチスケールアテンションネットワークを提案する。
このネットワークは、局所的な特徴をグローバルな特徴にマップし、精度を向上し、識別画像領域を強調する。
我々はPascalVOC2012とADE20kという2つの標準データセットでモデルを評価した。
論文 参考訳(メタデータ) (2020-09-15T08:03:41Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。