論文の概要: xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement
- arxiv url: http://arxiv.org/abs/2501.06146v1
- Date: Fri, 10 Jan 2025 18:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:26:27.999190
- Title: xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement
- Title(参考訳): xLSTM-SENet:シングルチャネル音声強調のためのxLSTM
- Authors: Nikolai Lund Kühne, Jan Østergaard, Jesper Jensen, Zheng-Hua Tan,
- Abstract要約: 本稿では,最初のxLSTMに基づく単一チャネル音声強調システムであるxLSTM-SENetを紹介する。
我々の最良のxLSTMベースモデルであるxLSTM-SENet2は、Voicebank+DEMANDデータセット上で最先端のMambaおよびConformerベースのシステムより優れています。
- 参考スコア(独自算出の注目度): 19.76560732937885
- License:
- Abstract: While attention-based architectures, such as Conformers, excel in speech enhancement, they face challenges such as scalability with respect to input sequence length. In contrast, the recently proposed Extended Long Short-Term Memory (xLSTM) architecture offers linear scalability. However, xLSTM-based models remain unexplored for speech enhancement. This paper introduces xLSTM-SENet, the first xLSTM-based single-channel speech enhancement system. A comparative analysis reveals that xLSTM-and notably, even LSTM-can match or outperform state-of-the-art Mamba- and Conformer-based systems across various model sizes in speech enhancement on the VoiceBank+Demand dataset. Through ablation studies, we identify key architectural design choices such as exponential gating and bidirectionality contributing to its effectiveness. Our best xLSTM-based model, xLSTM-SENet2, outperforms state-of-the-art Mamba- and Conformer-based systems on the Voicebank+DEMAND dataset.
- Abstract(参考訳): コンフォーマーのような注意に基づくアーキテクチャは音声強調に優れるが、入力シーケンス長に対するスケーラビリティなどの課題に直面している。
対照的に、最近提案された拡張長短期メモリ(xLSTM)アーキテクチャは、線形スケーラビリティを提供する。
しかし、xLSTMベースのモデルは、音声強調のために未検討のままである。
本稿では,最初のxLSTMに基づく単一チャネル音声強調システムであるxLSTM-SENetを紹介する。
比較分析により、XLSTMおよび特にLSTMが、VoiceBank+Demandデータセット上での音声強調において、様々なモデルサイズにわたる最先端のMambaおよびConformerベースのシステムにマッチまたは性能を向上することが明らかとなった。
アブレーション研究を通じて,指数的ゲーティングや双方向性といった重要な設計上の選択が,その有効性に寄与する。
我々の最良のxLSTMベースモデルであるxLSTM-SENet2は、Voicebank+DEMANDデータセット上で最先端のMambaおよびConformerベースのシステムより優れています。
関連論文リスト
- Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - Beam Prediction based on Large Language Models [51.45077318268427]
ミリ波(mmWave)通信は次世代無線ネットワークに期待できるが、パス損失は大きい。
長短期記憶(LSTM)のような従来のディープラーニングモデルでは、ビーム追跡精度が向上するが、ロバスト性や一般化が不足している。
本稿では,大規模言語モデル(LLM)を用いて,ビーム予測の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-08-16T12:40:01Z) - xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart [13.812935743270517]
医用画像セグメンテーションのバックボーンとしてVision-LSTM(xLSTM)を利用するUNet構造化ディープラーニングニューラルネットワークであるxLSTM-UNetを提案する。
xLSTMはLong Short-Term Memory (LSTM) ネットワークの後継として最近提案された。
以上の結果から,XLSTM-UNetはCNNベース,Transformerベース,およびMambaベースセグメンテーションネットワークの性能を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:59:54Z) - Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images [1.5954224931801726]
本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。
セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T08:01:28Z) - xLSTM: Extended Long Short-Term Memory [26.607656211983155]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。
正規化と安定化を適切に行う指数ゲーティングを導入する。
i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文 参考訳(メタデータ) (2024-05-07T17:50:21Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - LSTM-LM with Long-Term History for First-Pass Decoding in Conversational
Speech Recognition [27.639919625398]
LSTM言語モデル(LSTM-LM)は強力であることが証明され、現代の音声認識システムにおいて、カウントベースn-gram LMよりも大幅に性能が向上した。
最近の研究は、動的(またはツリーベース)デコーダフレームワークにおいて、最初のパスデコードでLSTM-LMを採用することは可能であり、計算に安価であることを示している。
論文 参考訳(メタデータ) (2020-10-21T23:40:26Z) - Multi-view Frequency LSTM: An Efficient Frontend for Automatic Speech
Recognition [4.753402561130792]
複数のFLSTMスタックの出力を異なるビューで組み合わせることで、シンプルで効率的な修正を行う。
本研究では,マルチビューFLSTM音響モデルにより,話者・音響環境の異なるシナリオに対して,単語誤り率(WER)が3~7%向上することを示す。
論文 参考訳(メタデータ) (2020-06-30T22:19:53Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。