論文の概要: Audio Signal Processing Using Time Domain Mel-Frequency Wavelet Coefficient
- arxiv url: http://arxiv.org/abs/2510.24519v1
- Date: Tue, 28 Oct 2025 15:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.250597
- Title: Audio Signal Processing Using Time Domain Mel-Frequency Wavelet Coefficient
- Title(参考訳): 時間領域メル周波数ウェーブレット係数を用いた音声信号処理
- Authors: Rinku Sebastian, Simon O'Keefe, Martin Trefzer,
- Abstract要約: 本稿ではウェーブレット変換の概念を組み合わせた時間領域におけるメルスケール特徴抽出手法を提案する。
貯水池計算手法を用いた時間領域メル周波数ウェーブレット係数(TMFWC)法は,音声信号処理の効率を大幅に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting features from the speech is the most critical process in speech signal processing. Mel Frequency Cepstral Coefficients (MFCC) are the most widely used features in the majority of the speaker and speech recognition applications, as the filtering in this feature is similar to the filtering taking place in the human ear. But the main drawback of this feature is that it provides only the frequency information of the signal but does not provide the information about at what time which frequency is present. The wavelet transform, with its flexible time-frequency window, provides time and frequency information of the signal and is an appropriate tool for the analysis of non-stationary signals like speech. On the other hand, because of its uniform frequency scaling, a typical wavelet transform may be less effective in analysing speech signals, have poorer frequency resolution in low frequencies, and be less in line with human auditory perception. Hence, it is necessary to develop a feature that incorporates the merits of both MFCC and wavelet transform. A great deal of studies are trying to combine both these features. The present Wavelet Transform based Mel-scaled feature extraction methods require more computation when a wavelet transform is applied on top of Mel-scale filtering, since it adds extra processing steps. Here we are proposing a method to extract Mel scale features in time domain combining the concept of wavelet transform, thus reducing the computational burden of time-frequency conversion and the complexity of wavelet extraction. Combining our proposed Time domain Mel frequency Wavelet Coefficient(TMFWC) technique with the reservoir computing methodology has significantly improved the efficiency of audio signal processing.
- Abstract(参考訳): 音声からの特徴抽出は音声信号処理において最も重要なプロセスである。
MFCC(Mel Frequency Cepstral Coefficients)は、話者および音声認識アプリケーションにおいて最も広く使われている機能である。
しかし、この機能の主な欠点は、信号の周波数情報のみを提供するが、どの周波数が存在するかの情報を提供しない点である。
ウェーブレット変換は、そのフレキシブルな時間周波数ウィンドウにより、信号の時間と周波数情報を提供し、音声のような非定常信号の分析に適したツールである。
一方、その均一な周波数スケーリングのため、典型的なウェーブレット変換は、音声信号の分析にはあまり効果がなく、低周波数での周波数分解能が低く、人間の聴覚知覚と一致しない可能性がある。
したがって、MFCCとウェーブレット変換の両方の利点を取り入れた機能を開発する必要がある。
多くの研究がこれらの2つの機能を組み合わせようとしている。
現在、ウェーブレット変換に基づくメルスケール特徴抽出法では、余分な処理ステップを追加するため、ウェーブレット変換をメルスケールフィルタの上に適用する場合、より多くの計算を必要とする。
本稿では,ウェーブレット変換の概念を組み合わせた時間領域におけるメルスケール特徴抽出手法を提案し,時間周波数変換の計算負担とウェーブレット抽出の複雑さを低減する。
提案した時間領域メル周波数ウェーブレット係数(TMFWC)と貯水池計算手法を組み合わせることで,音声信号処理の効率を大幅に改善した。
関連論文リスト
- Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Quantum Meets SAR: A Novel Range-Doppler Algorithm for Next-Gen Earth Observation [0.0]
本稿では、従来のFFTと比較して処理を高速化する量子レンジドップラーアルゴリズム(QRDA)を提案する。
RDAパイプラインにおける重要なステップであるフーリエ領域におけるレンジセルマイグレーション補正(RCMC)の量子実装を導入している。
量子RCMCの性能を従来のRCMCと比較して評価し、高度なSARイメージングにおける量子コンピューティングの可能性を示す。
論文 参考訳(メタデータ) (2025-04-02T15:40:12Z) - FLEXtime: Filterbank learning to explain time series [10.706092195673257]
時系列からの予測を説明する最先端の手法では、各ステップごとにインスタンスワイズ・サリエンシ・マスクを学習する。
本稿では,信号分解に確立された信号処理手法に頼って,解釈可能な部分に対する時間系列説明可能性について,有意なマップとして考察する。
具体的には、バンドパスフィルタのバンクを用いて時系列を周波数帯域に分割するFLEXtimeと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T15:06:42Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - FourierMamba: Fourier Learning Integration with State Space Models for Image Deraining [71.46369218331215]
Image derainingは雨が降る画像から雨の跡を取り除き、透明な背景を復元することを目的としている。
本稿では,FourierMambaという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:58:59Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - MultiWave: Multiresolution Deep Architectures through Wavelet
Decomposition for Multivariate Time Series Prediction [6.980076213134384]
MultiWaveは、信号の固有周波数で動作するコンポーネントを組み込むことで、ディープラーニング時系列モデルを強化する新しいフレームワークである。
我々は、MultiWaveが重要な特徴とその周波数成分を一貫して識別し、研究対象のアプリケーションに対する貴重な洞察を提供することを示す。
論文 参考訳(メタデータ) (2023-06-16T20:07:15Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Multi-Scale Wavelet Transformer for Face Forgery Detection [43.33712402517951]
顔偽造検出のためのマルチスケールウェーブレットトランスフォーマフレームワークを提案する。
周波数に基づく空間的注意は、空間的特徴抽出器をフォージェリトレースに集中させるよう誘導するように設計されている。
空間的特徴と周波数特徴を融合させるため,モーダリティ間の注意が提案されている。
論文 参考訳(メタデータ) (2022-10-08T03:39:36Z) - WavSpA: Wavelet Space Attention for Boosting Transformers' Long Sequence
Learning Ability [31.791279777902957]
近年の研究では、フーリエ空間における学習の注意がトランスフォーマーの長いシーケンス学習能力を向上させることが示されている。
ウェーブレット変換は、位置情報と周波数情報の両方を線形時間複雑度でキャプチャするので、よりよい選択であるべきだと我々は主張する。
学習可能なウェーブレット係数空間における注意学習を容易にするウェーブレット空間注意(WavSpA)を提案する。
論文 参考訳(メタデータ) (2022-10-05T02:37:59Z) - Frequency-bin entanglement from domain-engineered down-conversion [101.18253437732933]
フィルタや共振器の共振器を用いない離散周波数ビン絡みの単一パス源を提案する。
ドメインエンジニアリングされた非線形結晶を用いて、通信波長で8モードの周波数ビン絡み合った光源を生成する。
論文 参考訳(メタデータ) (2022-01-18T19:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。