論文の概要: A Multi-dimensional Deep Structured State Space Approach to Speech
Enhancement Using Small-footprint Models
- arxiv url: http://arxiv.org/abs/2306.00331v1
- Date: Thu, 1 Jun 2023 04:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:20:57.621534
- Title: A Multi-dimensional Deep Structured State Space Approach to Speech
Enhancement Using Small-footprint Models
- Title(参考訳): 小型プリントモデルを用いた音声強調のための多次元深部構造状態空間アプローチ
- Authors: Pin-Jui Ku, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee
- Abstract要約: 我々は、時間(T)および時間周波数(TF)ドメインにおける複数のS4ベースのディープアーキテクチャを探索する。
提案されたTFドメインS4ベースのモデルのサイズは78.6%小さいが、PESQスコア3.15のデータ拡張で競合する結果が得られる。
- 参考スコア(独自算出の注目度): 45.90759340302879
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a multi-dimensional structured state space (S4) approach to speech
enhancement. To better capture the spectral dependencies across the frequency
axis, we focus on modifying the multi-dimensional S4 layer with whitening
transformation to build new small-footprint models that also achieve good
performance. We explore several S4-based deep architectures in time (T) and
time-frequency (TF) domains. The 2-D S4 layer can be considered a particular
convolutional layer with an infinite receptive field although it utilizes fewer
parameters than a conventional convolutional layer. Evaluated on the
VoiceBank-DEMAND data set, when compared with the conventional U-net model
based on convolutional layers, the proposed TF-domain S4-based model is 78.6%
smaller in size, yet it still achieves competitive results with a PESQ score of
3.15 with data augmentation. By increasing the model size, we can even reach a
PESQ score of 3.18.
- Abstract(参考訳): 音声強調のための多次元構造化状態空間(S4)を提案する。
周波数軸間のスペクトル依存性をよりよく捉えるために、ホワイトニング変換による多次元S4層の変更に焦点を合わせ、優れた性能を実現するための新しい小型プリントモデルを構築した。
我々は、時間(T)および時間周波数(TF)ドメインにおける複数のS4ベースのディープアーキテクチャを探索する。
2次元のs4層は無限受容場を持つ特定の畳み込み層と考えることができるが、従来の畳み込み層よりもパラメータは少ない。
VoiceBank-DEMANDデータセットに基づいて、畳み込み層に基づく従来のU-netモデルと比較すると、提案したTFドメインS4ベースのモデルは78.6%小さいが、データ拡張を伴うPSSQスコア3.15の競合結果が得られる。
モデルサイズを増加させることで、pesqスコア3.18に達することもできる。
関連論文リスト
- State-Free Inference of State-Space Models: The Transfer Function Approach [132.83348321603205]
状態のない推論では、状態サイズが大きくなると大きなメモリや計算コストは発生しない。
提案した周波数領域転送関数のパラメトリゼーション特性を用いてこれを実現する。
長い畳み込みハイエナベースライン上での言語モデリングにおける難易度の改善を報告した。
論文 参考訳(メタデータ) (2024-05-10T00:06:02Z) - Augmenting conformers with structured state-space sequence models for
online speech recognition [41.444671189679994]
モデルが左の文脈のみにアクセスするオンライン音声認識は、ASRシステムにとって重要かつ困難なユースケースである。
本研究では、構造化状態空間シーケンスモデル(S4)を組み込んだオンラインASRのためのニューラルエンコーダの強化について検討する。
我々はS4モデルの変種を比較するために系統的アブレーション研究を行い、それらを畳み込みと組み合わせた2つの新しいアプローチを提案する。
我々の最良のモデルは、LibrispeechによるテストセットでWERの4.01%/8.53%を達成する。
論文 参考訳(メタデータ) (2023-09-15T17:14:17Z) - Neural Networks at a Fraction with Pruned Quaternions [0.0]
プルーニングは、不要な重量を取り除き、トレーニングと推論のリソース要求を減らす1つの手法である。
入力データが多次元であるMLタスクでは、複素数や四元数などの高次元データ埋め込みを用いることで、精度を維持しながらパラメータ数を削減することが示されている。
いくつかのアーキテクチャでは、非常に高い空間レベルにおいて、四元数モデルは実際のアーキテクチャよりも高い精度を提供する。
論文 参考訳(メタデータ) (2023-08-13T14:25:54Z) - Probabilistic-based Feature Embedding of 4-D Light Fields for
Compressive Imaging and Denoising [62.347491141163225]
4次元光電場(LF)は、効率的で効果的な機能埋め込みを実現する上で大きな課題となる。
様々な低次元畳み込みパターンを組み立てることで特徴埋め込みアーキテクチャを学習する確率論的特徴埋め込み(PFE)を提案する。
実世界および合成4次元LF画像において,本手法の有意な優位性を実証した。
論文 参考訳(メタデータ) (2023-06-15T03:46:40Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Simplified State Space Layers for Sequence Modeling [11.215817688691194]
近年、構造化された状態空間列層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成している。
ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。
我々は、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMで置き換える。
S5は、Long Range Arenaベンチマークスイートで平均82.46%を達成することを含む、長距離タスクにおけるS4のパフォーマンスと一致している。
論文 参考訳(メタデータ) (2022-08-09T17:57:43Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Diagonal State Spaces are as Effective as Structured State Spaces [3.8276199743296906]
音声コマンドのデータセット上での音声分類は、概念的にシンプルで実装が容易でありながら、Long Range Arenaタスク上でのS4のパフォーマンスと一致することを示す。
本研究は,低ランク補正を伴わずともS4の性能に一致できることを示し,状態行列を対角線と仮定する。
論文 参考訳(メタデータ) (2022-03-27T16:30:33Z) - Real-time Ionospheric Imaging of S4 Scintillation from Limited Data with
Parallel Kalman Filters and Smoothness [91.3755431537592]
南アメリカ上空350kmでS4振幅シンチレーションの2次元電離層像を時間分解能1分で作成する。
その結果, 地上受信機のネットワークが比較的良好なエリアでは, 生成画像が信頼性の高いリアルタイム結果を提供できることがわかった。
論文 参考訳(メタデータ) (2021-05-11T23:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。