論文の概要: A Hypernetwork-Based Approach to KAN Representation of Audio Signals
- arxiv url: http://arxiv.org/abs/2503.02585v1
- Date: Tue, 04 Mar 2025 13:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:13:46.681193
- Title: A Hypernetwork-Based Approach to KAN Representation of Audio Signals
- Title(参考訳): ハイパーネットワークによる音声信号の感性表現
- Authors: Patryk Marszałek, Maciej Rut, Piotr Kawa, Piotr Syga,
- Abstract要約: Inlicit Neural representations (INR) はマルチメディアデータを効率的に符号化する方法として有名になったが、音声信号への応用は限られている。
本研究では,学習可能なアクティベーション関数を用いた新しいアーキテクチャであるKAN(Kolmogorov-Arnold Network)を,音声表現のための効果的なINRモデルとして紹介する。
そこで我々は,INRパラメータを更新するハイパーネットワークアーキテクチャであるFewSoundを提案する。
- 参考スコア(独自算出の注目度): 1.7499351967216343
- License:
- Abstract: Implicit neural representations (INR) have gained prominence for efficiently encoding multimedia data, yet their applications in audio signals remain limited. This study introduces the Kolmogorov-Arnold Network (KAN), a novel architecture using learnable activation functions, as an effective INR model for audio representation. KAN demonstrates superior perceptual performance over previous INRs, achieving the lowest Log-SpectralDistance of 1.29 and the highest Perceptual Evaluation of Speech Quality of 3.57 for 1.5 s audio. To extend KAN's utility, we propose FewSound, a hypernetwork-based architecture that enhances INR parameter updates. FewSound outperforms the state-of-the-art HyperSound, with a 33.3% improvement in MSE and 60.87% in SI-SNR. These results show KAN as a robust and adaptable audio representation with the potential for scalability and integration into various hypernetwork frameworks. The source code can be accessed at https://github.com/gmum/fewsound.git.
- Abstract(参考訳): Inlicit Neural representations (INR) はマルチメディアデータを効率的に符号化する方法として有名になったが、音声信号への応用は限られている。
本研究では,学習可能なアクティベーション関数を用いた新しいアーキテクチャであるKAN(Kolmogorov-Arnold Network)を,音声表現のための効果的なINRモデルとして紹介する。
Kanは、従来のINRよりも優れた知覚性能を示し、1.29の対数スペクトル距離、1.5秒の音声に対して3.57の知覚品質の評価を達成している。
そこで我々は,INRパラメータを更新するハイパーネットワークアーキテクチャであるFewSoundを提案する。
FewSoundは最先端のHyperSoundを上回り、MSEは33.3%、SI-SNRは60.87%改善した。
これらの結果から,kanは拡張性と様々なハイパーネットワークフレームワークへの統合の可能性を秘めた,堅牢で適応可能なオーディオ表現であることが示された。
ソースコードはhttps://github.com/gmum/fewsound.gitでアクセスできる。
関連論文リスト
- Real-time Speech Enhancement on Raw Signals with Deep State-space Modeling [1.0650780147044159]
ATENNuateは、オンライン生音声の効率向上のために構成された、シンプルなディープな状態空間オートエンコーダである。
我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。
ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。
論文 参考訳(メタデータ) (2024-09-05T09:28:56Z) - LSTMSE-Net: Long Short Term Speech Enhancement Network for Audio-visual Speech Enhancement [4.891339883978289]
長期記憶音声強調ネットワーク(LSTMSE-Net)を提案する。
この手法は、視覚情報と音声情報の相補的な性質を活用し、音声信号の品質を高める。
システムは、視覚的および音声的特徴を拡大し強調し、それをセパレータネットワークを介して上回り、最適化された音声強調を行う。
論文 参考訳(メタデータ) (2024-09-03T19:52:49Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - HyperSound: Generating Implicit Neural Representations of Audio Signals
with Hypernetworks [23.390919506056502]
Inlicit Neural representations (INR) は急速に成長する研究分野であり、マルチメディア信号の代替手段を提供する。
本稿では,ハイパーネットを利用したメタ学習手法であるHyperSoundを提案する。
提案手法は,他の最先端モデルに匹敵する品質で音波を再構成できることを示す。
論文 参考訳(メタデータ) (2022-11-03T14:20:32Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。