論文の概要: ISAC: An Invertible and Stable Auditory Filter Bank with Customizable Kernels for ML Integration
- arxiv url: http://arxiv.org/abs/2505.07709v1
- Date: Mon, 12 May 2025 16:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.478015
- Title: ISAC: An Invertible and Stable Auditory Filter Bank with Customizable Kernels for ML Integration
- Title(参考訳): ISAC: ML統合のためのカスタマイズ可能なカーネルを備えた可逆的で安定した聴覚フィルタバンク
- Authors: Daniel Haider, Felix Perfler, Peter Balazs, Clara Hollomey, Nicki Holighaus,
- Abstract要約: ISACは、機械学習パラダイムに統合されるように設計された知覚的に動機付けられたフィルタバンクである。
ISACは、分析合成スキームを含むあらゆるアプリケーションに適した強力でユーザフレンドリーなオーディオフロントエンドを提供する。
- 参考スコア(独自算出の注目度): 0.34952465649465553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces ISAC, an invertible and stable, perceptually-motivated filter bank that is specifically designed to be integrated into machine learning paradigms. More precisely, the center frequencies and bandwidths of the filters are chosen to follow a non-linear, auditory frequency scale, the filter kernels have user-defined maximum temporal support and may serve as learnable convolutional kernels, and there exists a corresponding filter bank such that both form a perfect reconstruction pair. ISAC provides a powerful and user-friendly audio front-end suitable for any application, including analysis-synthesis schemes.
- Abstract(参考訳): 本稿では,非可逆かつ安定な,知覚的に動機づけられたフィルタバンクであるISACを紹介する。
より正確には、フィルタの中心周波数と帯域幅は、非線形の聴覚周波数スケールに従うように選択され、フィルタカーネルは、ユーザ定義の最大時間サポートを持ち、学習可能な畳み込みカーネルとして機能し、どちらも完全な再構成ペアを形成するフィルタバンクが存在する。
ISACは、分析合成スキームを含むあらゆるアプリケーションに適した強力でユーザフレンドリーなオーディオフロントエンドを提供する。
関連論文リスト
- Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - Multiplierless In-filter Computing for tinyML Platforms [6.878219199575747]
In-filter音響分類のための新しいマルチプライヤレスフレームワークを提案する。
我々は、近似誤差を緩和するバックプロパゲーションを含む、MPベースの近似をトレーニングに用いている。
このフレームワークは、1Kスライス未満の従来の分類フレームワークよりも効率的である。
論文 参考訳(メタデータ) (2023-04-24T04:33:44Z) - Automated classification of pre-defined movement patterns: A comparison
between GNSS and UWB technology [55.41644538483948]
リアルタイム位置情報システム(RTLS)は、人間の動きパターンからデータを収集することができる。
本研究の目的は、小さな領域における人間の動きパターンを分類する自動化された枠組みを設計し、評価することである。
論文 参考訳(メタデータ) (2023-03-10T14:46:42Z) - A Data-Driven Gaussian Process Filter for Electrocardiogram Denoising [5.359295206355495]
提案したGPフィルタをPhyloNet QT Database上の最先端ウェーブレットベースフィルタと比較した。
提案したGPフィルタは, 試験された全てのノイズレベルに対して, ベンチマークフィルタより優れていた。
また、QT間隔推定誤差バイアスと分散の観点から、最先端フィルタよりも優れている。
論文 参考訳(メタデータ) (2023-01-06T17:09:20Z) - Parallel APSM for Fast and Adaptive Digital SIC in Full-Duplex
Transceivers with Nonlinearity [19.534700035048637]
カーネルベースの適応フィルタは、フル(FD)モードのトランシーバにおけるデジタルデジタルドメイン自己干渉キャンセル(SIC)に適用される。
彼らは、カーネルベースのアルゴリズムがリッチで非線形な関数空間内で並列計算ベースの実装を実現しつつ、良好なレベルのデジタルSICを実現することを実証した。
論文 参考訳(メタデータ) (2022-07-12T11:17:22Z) - Surrogate modeling for Bayesian optimization beyond a single Gaussian
process [62.294228304646516]
本稿では,探索空間の活用と探索のバランスをとるための新しいベイズ代理モデルを提案する。
拡張性のある関数サンプリングを実現するため、GPモデル毎にランダムな特徴ベースのカーネル近似を利用する。
提案した EGP-TS を大域的最適に収束させるため,ベイズ的後悔の概念に基づいて解析を行う。
論文 参考訳(メタデータ) (2022-05-27T16:43:10Z) - Filter-enhanced MLP is All You Need for Sequential Recommendation [89.0974365344997]
オンラインプラットフォームでは、ログされたユーザの行動データはノイズを含まないことは避けられない。
周波数領域の雑音を減衰させる信号処理から,フィルタアルゴリズムのアイデアを借用する。
逐次レコメンデーションタスクのための学習可能なフィルタを備えたオールMLPモデルである textbfFMLP-Rec を提案する。
論文 参考訳(メタデータ) (2022-02-28T05:49:35Z) - In-filter Computing For Designing Ultra-light Acoustic Pattern
Recognizers [6.335302509003343]
超軽量音響分類器の設計に使用できる新しいインフィルタ・コンピューティング・フレームワークを提案する。
提案したアーキテクチャは、コンボリューションと非線形フィルタリングの操作を直接サポートベクトルマシンのカーネルに統合する。
本研究では,1.5k Look-Up Tables (LUT) と2.8k Flip-Flops (FF) のみを用いて,ベンチマーク音声認識タスクにおいてロバストな分類性能が得られることを示す。
論文 参考訳(メタデータ) (2021-09-11T08:16:53Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。