論文の概要: A Neural State-Space Model Approach to Efficient Speech Separation
- arxiv url: http://arxiv.org/abs/2305.16932v1
- Date: Fri, 26 May 2023 13:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:46:12.571706
- Title: A Neural State-Space Model Approach to Efficient Speech Separation
- Title(参考訳): 神経状態空間モデルによる効率的な音声分離
- Authors: Chen Chen, Chao-Han Huck Yang, Kai Li, Yuchen Hu, Pin-Jui Ku, Eng
Siong Chng
- Abstract要約: ニューラル状態空間モデル(SSM)に基づく新しい効率的な音声分離フレームワークであるS4Mを紹介する。
SSM手法を音声分離タスクに拡張するために、まず入力混合物を異なる解像度のマルチスケール表現に分解する。
実験の結果,S4Mは他の分離バックボーンとSI-SDRiの相容れない性能を示した。
我々のS4M-tinyモデル(1.8Mパラメータ)は、9.2の乗算演算(MAC)しか持たない雑音条件下で、注意に基づくセプフォーマ(26.0Mパラメータ)を超える。
- 参考スコア(独自算出の注目度): 34.38911304755453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce S4M, a new efficient speech separation framework
based on neural state-space models (SSM). Motivated by linear time-invariant
systems for sequence modeling, our SSM-based approach can efficiently model
input signals into a format of linear ordinary differential equations (ODEs)
for representation learning. To extend the SSM technique into speech separation
tasks, we first decompose the input mixture into multi-scale representations
with different resolutions. This mechanism enables S4M to learn globally
coherent separation and reconstruction. The experimental results show that S4M
performs comparably to other separation backbones in terms of SI-SDRi, while
having a much lower model complexity with significantly fewer trainable
parameters. In addition, our S4M-tiny model (1.8M parameters) even surpasses
attention-based Sepformer (26.0M parameters) in noisy conditions with only 9.2
of multiply-accumulate operation (MACs).
- Abstract(参考訳): 本研究では,ニューラル状態空間モデル(SSM)に基づく新しい効率的な音声分離フレームワークであるS4Mを紹介する。
シーケンスモデリングのための線形時間不変システムにより、SSMベースのアプローチは、入力信号を表現学習のための線形常微分方程式(ODE)の形式に効率的にモデル化することができる。
SSM手法を音声分離タスクに拡張するために、まず入力混合物を異なる解像度のマルチスケール表現に分解する。
このメカニズムにより、S4Mはグローバルにコヒーレントな分離と再構築を学ぶことができる。
実験の結果,S4Mは他の分離バックボーンとSI-SDRiで比較可能であり,モデルの複雑さは極めて小さく,トレーニング可能なパラメータは極めて少ないことがわかった。
さらに, s4m-tinyモデル (1.8mパラメータ) は, マルチプリアキュムレート演算 (macs) の9.2 しか持たない雑音条件下では, 注意に基づくセプフォーマ (26.0mパラメータ) を超えることさえある。
関連論文リスト
- Learning Method for S4 with Diagonal State Space Layers using Balanced
Truncation [0.0]
直交状態空間層を組み込んだ構造化状態空間系列(S4)モデルの新たな学習手法を提案する。
この方法は,センサデータ分析やリアルタイム分析など,エッジインテリジェンスアプリケーションにおける時系列データの処理に適した方法である。
論文 参考訳(メタデータ) (2024-02-25T05:22:45Z) - Online Variational Sequential Monte Carlo [56.16884466478886]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Augmenting conformers with structured state-space sequence models for
online speech recognition [41.444671189679994]
モデルが左の文脈のみにアクセスするオンライン音声認識は、ASRシステムにとって重要かつ困難なユースケースである。
本研究では、構造化状態空間シーケンスモデル(S4)を組み込んだオンラインASRのためのニューラルエンコーダの強化について検討する。
我々はS4モデルの変種を比較するために系統的アブレーション研究を行い、それらを畳み込みと組み合わせた2つの新しいアプローチを提案する。
我々の最良のモデルは、LibrispeechによるテストセットでWERの4.01%/8.53%を達成する。
論文 参考訳(メタデータ) (2023-09-15T17:14:17Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Simplified State Space Layers for Sequence Modeling [11.215817688691194]
近年、構造化された状態空間列層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成している。
ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。
我々は、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMで置き換える。
S5は、Long Range Arenaベンチマークスイートで平均82.46%を達成することを含む、長距離タスクにおけるS4のパフォーマンスと一致している。
論文 参考訳(メタデータ) (2022-08-09T17:57:43Z) - On the Parameterization and Initialization of Diagonal State Space
Models [35.68370606343843]
対角状態空間モデルのパラメータ化と初期化について述べる。
S4の行列の対角制限は、無限状態次元の極限において、驚くほど同じカーネルを回復することを示す。
論文 参考訳(メタデータ) (2022-06-23T17:58:39Z) - Quaternion Factorization Machines: A Lightweight Solution to Intricate
Feature Interaction Modelling [76.89779231460193]
factorization machine(fm)は、機能間の高次インタラクションを自動的に学習し、手動の機能エンジニアリングを必要とせずに予測を行うことができる。
本研究では,スパース予測解析のためのQFM(Quaternion factorization Machine)とQNFM(Quaternion neural factorization Machine)を提案する。
論文 参考訳(メタデータ) (2021-04-05T00:02:36Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。