論文の概要: A Neural State-Space Model Approach to Efficient Speech Separation
- arxiv url: http://arxiv.org/abs/2305.16932v1
- Date: Fri, 26 May 2023 13:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:46:12.571706
- Title: A Neural State-Space Model Approach to Efficient Speech Separation
- Title(参考訳): 神経状態空間モデルによる効率的な音声分離
- Authors: Chen Chen, Chao-Han Huck Yang, Kai Li, Yuchen Hu, Pin-Jui Ku, Eng
Siong Chng
- Abstract要約: ニューラル状態空間モデル(SSM)に基づく新しい効率的な音声分離フレームワークであるS4Mを紹介する。
SSM手法を音声分離タスクに拡張するために、まず入力混合物を異なる解像度のマルチスケール表現に分解する。
実験の結果,S4Mは他の分離バックボーンとSI-SDRiの相容れない性能を示した。
我々のS4M-tinyモデル(1.8Mパラメータ)は、9.2の乗算演算(MAC)しか持たない雑音条件下で、注意に基づくセプフォーマ(26.0Mパラメータ)を超える。
- 参考スコア(独自算出の注目度): 34.38911304755453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce S4M, a new efficient speech separation framework
based on neural state-space models (SSM). Motivated by linear time-invariant
systems for sequence modeling, our SSM-based approach can efficiently model
input signals into a format of linear ordinary differential equations (ODEs)
for representation learning. To extend the SSM technique into speech separation
tasks, we first decompose the input mixture into multi-scale representations
with different resolutions. This mechanism enables S4M to learn globally
coherent separation and reconstruction. The experimental results show that S4M
performs comparably to other separation backbones in terms of SI-SDRi, while
having a much lower model complexity with significantly fewer trainable
parameters. In addition, our S4M-tiny model (1.8M parameters) even surpasses
attention-based Sepformer (26.0M parameters) in noisy conditions with only 9.2
of multiply-accumulate operation (MACs).
- Abstract(参考訳): 本研究では,ニューラル状態空間モデル(SSM)に基づく新しい効率的な音声分離フレームワークであるS4Mを紹介する。
シーケンスモデリングのための線形時間不変システムにより、SSMベースのアプローチは、入力信号を表現学習のための線形常微分方程式(ODE)の形式に効率的にモデル化することができる。
SSM手法を音声分離タスクに拡張するために、まず入力混合物を異なる解像度のマルチスケール表現に分解する。
このメカニズムにより、S4Mはグローバルにコヒーレントな分離と再構築を学ぶことができる。
実験の結果,S4Mは他の分離バックボーンとSI-SDRiで比較可能であり,モデルの複雑さは極めて小さく,トレーニング可能なパラメータは極めて少ないことがわかった。
さらに, s4m-tinyモデル (1.8mパラメータ) は, マルチプリアキュムレート演算 (macs) の9.2 しか持たない雑音条件下では, 注意に基づくセプフォーマ (26.0mパラメータ) を超えることさえある。
関連論文リスト
- Recursive Learning of Asymptotic Variational Objectives [49.69399307452126]
一般状態空間モデル(英: General State-space Model, SSM)は、統計機械学習において広く用いられ、時系列データに対して最も古典的な生成モデルの一つである。
オンラインシーケンシャルIWAE(OSIWAE)は、潜在状態の推測のためのモデルパラメータとマルコフ認識モデルの両方のオンライン学習を可能にする。
このアプローチは、最近提案されたオンライン変分SMC法よりも理論的によく確立されている。
論文 参考訳(メタデータ) (2024-11-04T16:12:37Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Incorporating Exponential Smoothing into MLP: A Simple but Effective Sequence Model [0.0]
最近開発されたStructured State Space (S4) は、長距離シーケンスをモデル化する上で大きな効果を示した。
帰納バイアスの増大と低減を目的とした指数的平滑化(ETS)を提案する。
我々のモデルはLRAベンチマークでS4に匹敵する結果を得る。
論文 参考訳(メタデータ) (2024-03-26T07:23:46Z) - EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization [5.260841516691153]
本稿では,マルチインプットマルチアウトプットSSMに基づく新しい状態空間層,すなわち効率的なSSMを提案する。
我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。
モデル効率ベンチマークでは、eSSMのパラメータはLSTMの12.89%、Mambaの13.24%に過ぎなかった。
論文 参考訳(メタデータ) (2024-02-23T12:36:31Z) - Augmenting conformers with structured state-space sequence models for
online speech recognition [41.444671189679994]
モデルが左の文脈のみにアクセスするオンライン音声認識は、ASRシステムにとって重要かつ困難なユースケースである。
本研究では、構造化状態空間シーケンスモデル(S4)を組み込んだオンラインASRのためのニューラルエンコーダの強化について検討する。
我々はS4モデルの変種を比較するために系統的アブレーション研究を行い、それらを畳み込みと組み合わせた2つの新しいアプローチを提案する。
我々の最良のモデルは、LibrispeechによるテストセットでWERの4.01%/8.53%を達成する。
論文 参考訳(メタデータ) (2023-09-15T17:14:17Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Simplified State Space Layers for Sequence Modeling [11.215817688691194]
近年、構造化された状態空間列層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成している。
ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。
我々は、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMで置き換える。
S5は、Long Range Arenaベンチマークスイートで平均82.46%を達成することを含む、長距離タスクにおけるS4のパフォーマンスと一致している。
論文 参考訳(メタデータ) (2022-08-09T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。