論文の概要: An Investigation on the Potential of KAN in Speech Enhancement
- arxiv url: http://arxiv.org/abs/2412.17778v1
- Date: Mon, 23 Dec 2024 18:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:32.029373
- Title: An Investigation on the Potential of KAN in Speech Enhancement
- Title(参考訳): 音声強調における感性の検討
- Authors: Haoyang Li, Yuchen Hu, Chen Chen, Eng Siong Chng,
- Abstract要約: Kolmogorov-Arnold Networks (KAN) は、グラフエッジ上で学習可能なアクティベーション関数を利用する新興手法である。
本研究は,音声強調のための有理基底関数とラジアル基底関数に基づく2つの新しいカン変種について検討する。
- 参考スコア(独自算出の注目度): 41.41193004912057
- License:
- Abstract: High-fidelity speech enhancement often requires sophisticated modeling to capture intricate, multiscale patterns. Standard activation functions, while introducing nonlinearity, lack the flexibility to fully address this complexity. Kolmogorov-Arnold Networks (KAN), an emerging methodology that employs learnable activation functions on graph edges, present a promising alternative. This work investigates two novel KAN variants based on rational and radial basis functions for speech enhancement. We integrate the rational variant into the 1D CNN blocks of Demucs and the GRU-Transformer blocks of MP-SENet, while the radial variant is adapted to the 2D CNN-based decoders of MP-SENet. Experiments on the VoiceBank-DEMAND dataset show that replacing standard activations with KAN-based activations improves speech quality across both the time-domain and time-frequency domain methods with minimal impact on model size and FLOP, underscoring KAN's potential to improve speech enhancement models.
- Abstract(参考訳): 高忠実度音声強調は、複雑なマルチスケールパターンをキャプチャする洗練されたモデリングを必要とすることが多い。
標準的なアクティベーション関数は、非線形性を導入する一方で、この複雑さに完全に対処する柔軟性を欠いている。
Kolmogorov-Arnold Networks (KAN)は、グラフエッジ上で学習可能なアクティベーション関数を利用する新興の方法論である。
本研究は,音声強調のための有理基底関数とラジアル基底関数に基づく2つの新しいカン変種について検討する。
本稿では,MP-SENet の 1D CNN ブロックと GRU-Transformer ブロックに有理変種を組み込む一方,ラジアル変種は MP-SENet の 2D CNN ベースのデコーダに適応する。
VoiceBank-DEMANDデータセットの実験では、標準アクティベーションをkanベースのアクティベーションに置き換えることで、モデルサイズとFLOPに最小限の影響で時間領域と時間周波数の両方のドメインメソッドにおける音声品質が向上し、kanが音声強調モデルを改善する可能性を示している。
関連論文リスト
- Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling [39.80957479349776]
本稿では,RVQ-VAEモデルの離散空間の韻律モデリング機能について検討し,音素レベルでの操作を可能とした。
音素レベルの離散潜在表現は, 頑健かつ伝達可能な微細な韻律情報を捕捉し, 高いアンタングル化を実現することを示す。
論文 参考訳(メタデータ) (2024-09-13T09:27:05Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Dynamic Kernels and Channel Attention with Multi-Layer Embedding
Aggregation for Speaker Verification [28.833851817220616]
本稿では,畳み込みニューラルネットワークにおける注意に基づく動的カーネルを用いたモデル分解能の向上手法を提案する。
提案した動的畳み込みモデルはVoxCeleb1テストセットで1.62%のEERと0.18のミニDCFを達成し、ECAPA-TDNNと比較して17%改善した。
論文 参考訳(メタデータ) (2022-11-03T17:13:28Z) - A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement [4.395837214164745]
本稿では,エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合する
ベンチマークのChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈におけるより良い特徴学習を強化していることがわかった。
論文 参考訳(メタデータ) (2022-02-09T15:47:07Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - An Investigation of Potential Function Designs for Neural CRF [75.79555356970344]
本稿では,ニューラルCRFモデルに対する一連の表現力のあるポテンシャル関数について検討する。
実験により, 隣接する2つのラベルと隣接する2つの単語のベクトル表現に基づく分解された二次ポテンシャル関数が, 常に最高の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-11-11T07:32:18Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。