論文の概要: From KAN to GR-KAN: Advancing Speech Enhancement with KAN-Based Methodology
- arxiv url: http://arxiv.org/abs/2412.17778v2
- Date: Wed, 21 May 2025 08:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 18:05:36.036459
- Title: From KAN to GR-KAN: Advancing Speech Enhancement with KAN-Based Methodology
- Title(参考訳): KanからGR-KANへ:kan-based Methodologyによる音声強調の強化
- Authors: Haoyang Li, Yuchen Hu, Chen Chen, Sabato Marco Siniscalchi, Songting Liu, Eng Siong Chng,
- Abstract要約: Kolmogorov-Arnold Networks (KAN) の変種である Group-Rational Kan (GR-KAN) は、複雑なタスクのスケーラビリティを改善しながら、kan の表現性を保っている。
我々は、時間周波数(T-F)ドメインMP-SENetの高密度層をGR-KAN層に置き換え、時間周波数(T-F)ドメインの1D CNN層にGR-KANの活性化を適応させることにより、既存のDNNベースのSEにGR-KANを適用する。
Voicebank-DEMANDの結果,GR-KANのパラメータは最大4倍,PESQは最大0.1。
- 参考スコア(独自算出の注目度): 44.61197697979163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural network (DNN)-based speech enhancement (SE) usually uses conventional activation functions, which lack the expressiveness to capture complex multiscale structures needed for high-fidelity SE. Group-Rational KAN (GR-KAN), a variant of Kolmogorov-Arnold Networks (KAN), retains KAN's expressiveness while improving scalability on complex tasks. We adapt GR-KAN to existing DNN-based SE by replacing dense layers with GR-KAN layers in the time-frequency (T-F) domain MP-SENet and adapting GR-KAN's activations into the 1D CNN layers in the time-domain Demucs. Results on Voicebank-DEMAND show that GR-KAN requires up to 4x fewer parameters while improving PESQ by up to 0.1. In contrast, KAN, facing scalability issues, outperforms MLP on a small-scale signal modeling task but fails to improve MP-SENet. We demonstrate the first successful use of KAN-based methods for consistent improvement in both time- and SoTA TF-domain SE, establishing GR-KAN as a promising alternative for SE.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)に基づく音声強調(SE)は通常、高忠実度SEに必要な複雑なマルチスケール構造を捉える表現力に欠ける従来のアクティベーション関数を使用する。
Kolmogorov-Arnold Networks (KAN) の変種である Group-Rational Kan (GR-KAN) は、複雑なタスクのスケーラビリティを改善しながら、kan の表現性を保っている。
我々は、時間周波数(T-F)ドメインMP-SENetの高密度層をGR-KAN層に置き換え、時間周波数(T-F)ドメインの1D CNN層にGR-KANの活性化を適応させることにより、既存のDNNベースのSEにGR-KANを適用する。
Voicebank-DEMANDの結果,GR-KANのパラメータは最大4倍,PESQは最大0.1。
対照的に、スケーラビリティ問題に直面したkanは、MP-SENetの改善に失敗し、小規模の信号モデリングタスクでMLPを上回っている。
時間と SoTA TF ドメイン SE の整合性向上のための Kan ベースの手法を初めて成功させ,GR-KAN を SE の代替として確立した。
関連論文リスト
- Improving Generalizability of Kolmogorov-Arnold Networks via Error-Correcting Output Codes [3.536605202672355]
誤り訂正出力コード(ECOC)をKAN(Kolmogorov-Arnold Networks)フレームワークに統合し,マルチクラス分類をバイナリタスクに変換する。
提案手法は,バニラ・カンの血液細胞分類データセットにおいて,ECOC法より優れていた。
マルチクラスの医用画像分類性能を向上させるため,ECOCとkanの統合はこれが初めてである。
論文 参考訳(メタデータ) (2025-05-09T05:31:10Z) - LeanKAN: A Parameter-Lean Kolmogorov-Arnold Network Layer with Improved Memory Efficiency and Convergence Behavior [0.0]
Kolmogorov-Arnoldネットワーク(KAN)は、データ駆動モデリングのための多層パーセプトロン(MLP)に代わる有望な代替品である。
ここでは、MultKAN層が出力層において限定的な適用性に悩まされていることが分かる。
我々は、MultKANと従来のAddKANレイヤを直接かつモジュール的に置き換えるLeanKANを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:43:41Z) - A Genetic Algorithm-Based Approach for Automated Optimization of Kolmogorov-Arnold Networks in Classification Tasks [8.669319624657701]
コルモゴロフ・アルノルドネットワーク(KAN)は2024年に導入され、多層パーセプトロンの解釈可能性の問題に対処している。
本稿では, GA-KANを提案する。GA-KANは, Kansの最適化を自動化する遺伝的アプローチであり, 設計プロセスに人間の介入を必要としない。
GA-KANは2つのおもちゃのデータセット上で検証され、元のkanのマニュアルチューニングを必要とせずに最適な結果が得られる。
論文 参考訳(メタデータ) (2025-01-29T04:32:36Z) - PRKAN: Parameter-Reduced Kolmogorov-Arnold Networks [47.947045173329315]
Kolmogorov-Arnold Networks (KAN) は、ニューラルネットワークアーキテクチャの革新を象徴している。
Kansは、CNN、Recurrent Reduced Networks(RNN)、Transformerなどのモデルで、MLP(Multi-Layer Perceptrons)に代わる魅力的な代替手段を提供する。
本稿では,階層内のパラメータ数を削減するために複数の手法を用いたPRKANを導入し,ニューラルM層に匹敵する手法を提案する。
論文 参考訳(メタデータ) (2025-01-13T03:07:39Z) - On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling [39.80957479349776]
本稿では,RVQ-VAEモデルの離散空間の韻律モデリング機能について検討し,音素レベルでの操作を可能とした。
音素レベルの離散潜在表現は, 頑健かつ伝達可能な微細な韻律情報を捕捉し, 高いアンタングル化を実現することを示す。
論文 参考訳(メタデータ) (2024-09-13T09:27:05Z) - CADE: Cosine Annealing Differential Evolution for Spiking Neural Network [3.933578042941731]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングとエネルギー効率のよい人工知能のポテンシャルで有名になった。
本稿では,CADE(Cosine Annealing Differential Evolution)を導入して課題に挑戦する。
CADEは、SNNモデル、すなわちスパイキング要素ワイズ(SEW)ResNetの差分進化の突然変異因子(F)とクロスオーバー率(CR)を変調する。
論文 参考訳(メタデータ) (2024-06-04T14:24:35Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Dynamic Kernels and Channel Attention with Multi-Layer Embedding
Aggregation for Speaker Verification [28.833851817220616]
本稿では,畳み込みニューラルネットワークにおける注意に基づく動的カーネルを用いたモデル分解能の向上手法を提案する。
提案した動的畳み込みモデルはVoxCeleb1テストセットで1.62%のEERと0.18のミニDCFを達成し、ECAPA-TDNNと比較して17%改善した。
論文 参考訳(メタデータ) (2022-11-03T17:13:28Z) - DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action
Recognition [77.87404524458809]
骨格に基づく行動認識のための新しいフレームワーク,すなわち動的グループ時空間GCN(DG-STGCN)を提案する。
DG-GCNとDG-TCNの2つのモジュールで構成される。
DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。
論文 参考訳(メタデータ) (2022-10-12T03:17:37Z) - A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement [4.395837214164745]
本稿では,エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合する
ベンチマークのChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈におけるより良い特徴学習を強化していることがわかった。
論文 参考訳(メタデータ) (2022-02-09T15:47:07Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - Learning A 3D-CNN and Transformer Prior for Hyperspectral Image
Super-Resolution [80.93870349019332]
本稿では,CNN の代わりに Transformer を用いて HSI の事前学習を行う新しい HSISR 手法を提案する。
具体的には、まず勾配アルゴリズムを用いてHSISRモデルを解き、次に展開ネットワークを用いて反復解過程をシミュレートする。
論文 参考訳(メタデータ) (2021-11-27T15:38:57Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - An Investigation of Potential Function Designs for Neural CRF [75.79555356970344]
本稿では,ニューラルCRFモデルに対する一連の表現力のあるポテンシャル関数について検討する。
実験により, 隣接する2つのラベルと隣接する2つの単語のベクトル表現に基づく分解された二次ポテンシャル関数が, 常に最高の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-11-11T07:32:18Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Iterative Network for Image Super-Resolution [69.07361550998318]
単一画像超解像(SISR)は、最近の畳み込みニューラルネットワーク(CNN)の発展により、大幅に活性化されている。
本稿では、従来のSISRアルゴリズムに関する新たな知見を提供し、反復最適化に依存するアプローチを提案する。
反復最適化の上に,新しい反復型超解像ネットワーク (ISRN) を提案する。
論文 参考訳(メタデータ) (2020-05-20T11:11:47Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。