論文の概要: Effective Low-Cost Time-Domain Audio Separation Using Globally Attentive
Locally Recurrent Networks
- arxiv url: http://arxiv.org/abs/2101.05014v1
- Date: Wed, 13 Jan 2021 11:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 08:00:19.631150
- Title: Effective Low-Cost Time-Domain Audio Separation Using Globally Attentive
Locally Recurrent Networks
- Title(参考訳): グローバル注意型局所リカレントネットワークを用いた低コストな時間領域音声分離
- Authors: Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu
- Abstract要約: 音声分離ネットワークのための低コストな高性能アーキテクチャを設計する。
GALR(Globally Attentive Local Recurrent)ネットワークは、セグメント内次元とセグメント間次元の両方に沿ってシーケンスを処理する。
実験の結果,GALRは従来よりも優れたネットワークであることが示唆された。
- 参考スコア(独自算出の注目度): 37.697375719184926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on the time-domain audio separation networks (TasNets) has
brought great success to speech separation. Nevertheless, conventional TasNets
struggle to satisfy the memory and latency constraints in industrial
applications. In this regard, we design a low-cost high-performance
architecture, namely, globally attentive locally recurrent (GALR) network.
Alike the dual-path RNN (DPRNN), we first split a feature sequence into 2D
segments and then process the sequence along both the intra- and inter-segment
dimensions. Our main innovation lies in that, on top of features recurrently
processed along the inter-segment dimensions, GALR applies a self-attention
mechanism to the sequence along the inter-segment dimension, which aggregates
context-aware information and also enables parallelization. Our experiments
suggest that GALR is a notably more effective network than the prior work. On
one hand, with only 1.5M parameters, it has achieved comparable separation
performance at a much lower cost with 36.1% less runtime memory and 49.4% fewer
computational operations, relative to the DPRNN. On the other hand, in a
comparable model size with DPRNN, GALR has consistently outperformed DPRNN in
three datasets, in particular, with a substantial margin of 2.4dB absolute
improvement of SI-SNRi in the benchmark WSJ0-2mix task.
- Abstract(参考訳): 時間領域音声分離ネットワーク(TasNets)の最近の研究は,音声分離に大きな成功を収めている。
それでも従来のtasnetは、産業アプリケーションにおけるメモリとレイテンシの制約を満たすのに苦労している。
この点において、我々は低コストで高性能なアーキテクチャ、すなわちグローバルな注意的局所再帰(GALR)ネットワークを設計する。
デュアルパスRNN(DPRNN)と同様に、まず特徴系列を2次元セグメントに分割し、その配列をセグメント内次元とセグメント間次元の両方に沿って処理する。
我々の主な革新は、セグメント間次元に沿って繰り返し処理される機能に加えて、GALRはセグメント間次元に沿ったシーケンスに自己アテンション機構を適用し、コンテキスト認識情報を集約し、並列化を可能にします。
実験の結果,GALRは従来よりも優れたネットワークであることが示唆された。
一方、1.5Mのパラメータしか持たず、DPRNNと比較して36.1%のランタイムメモリ、49.4%の計算処理で同等の分離性能を実現している。
一方、DPRNNと同等のモデルサイズであるGALRは、3つのデータセットにおいて一貫してDPRNNを上回り、特にベンチマークWSJ0-2mixタスクにおいて、SI-SNRiを2.4dB絶対的に改善した。
関連論文リスト
- Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding [56.315932539150324]
ビデオとテキスト/オーディオクエリ間の意味的関連を学習するために,Unified Static and Dynamic Network (UniSDNet) を設計する。
我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。
論文 参考訳(メタデータ) (2024-03-21T06:53:40Z) - BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文 参考訳(メタデータ) (2024-03-14T12:51:58Z) - Shared Memory-contention-aware Concurrent DNN Execution for Diversely
Heterogeneous System-on-Chips [0.32634122554914]
HaX-CoNNは、推論ワークロードの同時実行においてレイヤを特徴付け、マップする新しいスキームである。
NVIDIA Orin,NVIDIA Xavier,Qualcomm Snapdragon 865 SOC上でHaX-CoNNを評価した。
論文 参考訳(メタデータ) (2023-08-10T22:47:40Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。