論文の概要: Sandglasset: A Light Multi-Granularity Self-attentive Network For
Time-Domain Speech Separation
- arxiv url: http://arxiv.org/abs/2103.00819v1
- Date: Mon, 1 Mar 2021 07:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:52:29.186969
- Title: Sandglasset: A Light Multi-Granularity Self-attentive Network For
Time-Domain Speech Separation
- Title(参考訳): Sandglasset: 時間領域の音声分離のための軽量多粒度自己アテンシブネットワーク
- Authors: Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu
- Abstract要約: モデルサイズと計算コストを大幅に小さくして, 最先端(SOTA) SS性能を向上する, サンドグラス形状の新規なセルフアテンテートネットワークを提案する。
実験では、2つのベンチマークSSデータセットで最高の結果を得たのは、わずか2.3MパラメータのSandglassetです。
- 参考スコア(独自算出の注目度): 37.697375719184926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the leading single-channel speech separation (SS) models is based on a
TasNet with a dual-path segmentation technique, where the size of each segment
remains unchanged throughout all layers. In contrast, our key finding is that
multi-granularity features are essential for enhancing contextual modeling and
computational efficiency. We introduce a self-attentive network with a novel
sandglass-shape, namely Sandglasset, which advances the state-of-the-art (SOTA)
SS performance at significantly smaller model size and computational cost.
Forward along each block inside Sandglasset, the temporal granularity of the
features gradually becomes coarser until reaching half of the network blocks,
and then successively turns finer towards the raw signal level. We also unfold
that residual connections between features with the same granularity are
critical for preserving information after passing through the bottleneck layer.
Experiments show our Sandglasset with only 2.3M parameters has achieved the
best results on two benchmark SS datasets -- WSJ0-2mix and WSJ0-3mix, where the
SI-SNRi scores have been improved by absolute 0.6 dB and 2.4 dB, respectively,
comparing to the prior SOTA results.
- Abstract(参考訳): 主要な単一チャネル音声分離(SS)モデルの1つは、各セグメントのサイズがすべての層で変化しないデュアルパスセグメンテーション技術を備えたTasNetに基づいている。
対照的に、我々の重要な発見は、マルチグラニュラリティ機能が文脈モデリングと計算効率の向上に不可欠であるということである。
モデルサイズと計算コストを大幅に小さくして, 最先端(SOTA) SS性能を向上する, サンドグラス形状の新規なセルフアテンテートネットワークを提案する。
Sandglasset内の各ブロックに沿って進むと、機能の時間的粒度はネットワークブロックの半分に達するまで徐々に粗くなり、その後、生信号レベルに向かって細かくなります。
また,同一の粒度を持つ機能間の残差接続が,ボトルネック層を通過した後の情報保存に重要であることも明らかにした。
WSJ0-2mixとWSJ0-3mixの2つのベンチマークSSデータセットにおいて、SI-SNRiスコアがそれぞれ0.6 dBと2.4 dBで改善され、以前のSOTA結果と比較して、Sandglassetはわずか2.3Mパラメータで最高の結果を達成しています。
関連論文リスト
- GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - Transforming Observations of Ocean Temperature with a Deep Convolutional
Residual Regressive Neural Network [0.0]
海面温度(SST)は、地上の真理、リモートセンシング、ハイブリッドモデル手法を通じて測定できる、必須の気候変動である。
ここでは,20世紀後半から21世紀初頭にかけてのいくつかの技術進歩を応用して,SST監視の進展を祝福する。
本研究では, AMSR-E と MODIS を高分解能に融合させるため, 既存の水循環観測フレームワークである Flux to Flow (F2F) を開発した。
我々のニューラルネットワークアーキテクチャは、深い畳み込み残留回帰ニューラルネットワークに制約されている。
論文 参考訳(メタデータ) (2023-06-16T17:35:11Z) - DSNet: a simple yet efficient network with dual-stream attention for
lesion segmentation [0.0]
本稿では, 簡易かつ効率的なネットワークDSNetを提案する。
本手法は,モデル複雑性とメモリ消費の低い平均Dice係数(mDice)と平均MIoU(mIoU)のSOTA性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T12:48:17Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Conquering Data Variations in Resolution: A Slice-Aware Multi-Branch
Decoder Network [28.946037652152395]
本研究は,スライス内分解能とスライス間分解能の比の幅広い変動を性能の重要な障害とみなす。
本研究では,各スライスに対して,平面内セマンティクスだけでなく,外面にもとづく特徴を抽出することを強調するスライス対応2.5Dネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-07T14:31:26Z) - Learning Semantic Segmentation of Large-Scale Point Clouds with Random
Sampling [52.464516118826765]
我々はRandLA-Netを紹介した。RandLA-Netは、大規模ポイントクラウドのポイントごとの意味を推論する、効率的で軽量なニューラルネットワークアーキテクチャである。
我々のアプローチの鍵は、より複雑な点選択アプローチではなく、ランダムな点サンプリングを使用することである。
我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できます。
論文 参考訳(メタデータ) (2021-07-06T05:08:34Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。