論文の概要: nnAudio: An on-the-fly GPU Audio to Spectrogram Conversion Toolbox Using
1D Convolution Neural Networks
- arxiv url: http://arxiv.org/abs/1912.12055v3
- Date: Sat, 22 Aug 2020 03:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 23:44:29.669108
- Title: nnAudio: An on-the-fly GPU Audio to Spectrogram Conversion Toolbox Using
1D Convolution Neural Networks
- Title(参考訳): nnAudio: 1次元畳み込みニューラルネットワークを用いたオンザフライGPUオーディオからスペクトログラム変換ツールボックス
- Authors: Kin Wai Cheuk, Hans Anderson, Kat Agres, Dorien Herremans
- Abstract要約: 異なる周波数領域表現を保持するには、多くのハードディスクスペースが必要です。
nnAudioは1D畳み込みニューラルネットワークを利用して時間領域から周波数領域への変換を行う。
nnAudioは1,770個の波形に対する波形-スペクトル変換時間を短縮する。
- 参考スコア(独自算出の注目度): 6.509265251405064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Converting time domain waveforms to frequency domain spectrograms is
typically considered to be a prepossessing step done before model training.
This approach, however, has several drawbacks. First, it takes a lot of hard
disk space to store different frequency domain representations. This is
especially true during the model development and tuning process, when exploring
various types of spectrograms for optimal performance. Second, if another
dataset is used, one must process all the audio clips again before the network
can be retrained. In this paper, we integrate the time domain to frequency
domain conversion as part of the model structure, and propose a neural network
based toolbox, nnAudio, which leverages 1D convolutional neural networks to
perform time domain to frequency domain conversion during feed-forward. It
allows on-the-fly spectrogram generation without the need to store any
spectrograms on the disk. This approach also allows back-propagation on the
waveforms-to-spectrograms transformation layer, which implies that this
transformation process can be made trainable, and hence further optimized by
gradient descent. nnAudio reduces the waveforms-to-spectrograms conversion time
for 1,770 waveforms (from the MAPS dataset) from $10.64$ seconds with librosa
to only $0.001$ seconds for Short-Time Fourier Transform (STFT), $18.3$ seconds
to $0.015$ seconds for Mel spectrogram, $103.4$ seconds to $0.258$ for
constant-Q transform (CQT), when using GPU on our DGX work station with CPU:
Intel(R) Xeon(R) CPU E5-2698 v4 @ 2.20GHz Tesla v100 32Gb GPUs. (Only 1 GPU is
being used for all the experiments.) We also further optimize the existing CQT
algorithm, so that the CQT spectrogram can be obtained without aliasing in a
much faster computation time (from $0.258$ seconds to only $0.001$ seconds).
- Abstract(参考訳): 時間領域の波形を周波数領域のスペクトログラムに変換することは、通常、モデルトレーニングの前に行われる前提ステップであると考えられている。
しかし、このアプローチにはいくつかの欠点がある。
まず、異なる周波数領域表現を保持するのに多くのハードディスク空間が必要です。
これは、モデル開発とチューニングのプロセスにおいて、最適なパフォーマンスのために様々なタイプのスペクトログラムを探索するときに特に当てはまる。
第二に、もし別のデータセットが使われたら、ネットワークが再トレーニングされる前に、すべてのオーディオクリップを再び処理しなければならない。
本稿では、モデル構造の一部として時間領域から周波数領域への変換を統合し、1次元畳み込みニューラルネットワークを利用してフィードフォワード中の周波数領域への変換を行うニューラルネットワークベースのツールボックスnnAudioを提案する。
オンザフライのスペクトログラム生成が可能で、ディスクにスペクトログラムを格納する必要はない。
このアプローチはまた、波形-スペクトル変換層へのバックプロパゲーションを可能にするため、この変換プロセスをトレーニング可能とし、従って勾配降下によりさらに最適化することができる。
nnAudioは、(MAPSデータセットから)1,770の波形の変換時間を、リブロサによる10.64ドル秒から、ショートタイムフーリエ変換(STFT)でわずか0.001ドル秒まで、Mel Spectrogramで18.3ドル秒から0.015ドル秒まで、Mel Spectrogramで103.4ドル秒から0.258ドルまで、CPUでDGXワークステーションでGPUを使用する場合、Mel Spectrogram(CQT)で103.4ドル秒から0.258ドルに短縮する。
(現在、すべての実験に1つのGPUが使われている)。
さらに、既存のCQTアルゴリズムを最適化し、より高速な計算時間(0.258$秒から0.001$秒まで)でCQTスペクトログラムが得られるようにした。
関連論文リスト
- FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor
Cores [18.016204763652553]
長いフィルタを持つ畳み込みモデルは、多くの長いシーケンスタスクにおいて最先端の推論能力を示している。
Fast Fourier Transform (FFT) は、長い畳み込みを$O(N logN)$ time in sequence length $N$で実行可能にするが、ハードウェア利用は乏しい。
本稿では,FFT畳み込みの最適化方法について検討する。
論文 参考訳(メタデータ) (2023-11-10T07:33:35Z) - WFTNet: Exploiting Global and Local Periodicity in Long-term Time Series
Forecasting [61.64303388738395]
本稿では,長期連続予測のためのWavelet-Fourier Transform Network (WFTNet)を提案する。
さまざまな時系列データセットのテストでは、WFTNetは他の最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-20T13:44:18Z) - iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using
1D-2D CNN [37.32786330765437]
逆の短時間フーリエ変換ネットワーク(iSTFTNet)は、高速で軽量で高忠実な音声合成のために注目を集めている。
1次元CNNと2次元CNNを用いて時間・分光図構造をモデル化したiSTFTNetの改良版iSTFTNet2を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:56:31Z) - Neural Fourier Filter Bank [18.52741992605852]
本稿では, 効率的かつ高精度な再構築手法を提案する。
ウェーブレットにインスパイアされた我々は、信号が空間的にも周波数的にも分解されるニューラルネットワークを学習する。
論文 参考訳(メタデータ) (2022-12-04T03:45:08Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。
本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。
本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:05:51Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating
Inverse Short-Time Fourier Transform [38.271530231451834]
メルスペクトルボコーダは、元のスケールのスペクトルの復元、位相再構成、周波数から時間への変換という3つの逆問題を解く必要がある。
典型的な畳み込みメル-スペクトログラムボコーダは、畳み込みニューラルネットワークを用いてこれらの問題を共同で暗黙的に解決する。
我々は,メルスペクトルボコーダの出力側層を,逆ショートタイムフーリエ変換に置き換えるiSTFTNetを提案する。
論文 参考訳(メタデータ) (2022-03-04T16:05:48Z) - Dense Pruning of Pointwise Convolutions in the Frequency Domain [10.58456555092086]
本研究では,各点層を離散コサイン変換(DCT)でラップする手法を提案する。
スパース演算子に依存する重み打ち法とは異なり、連続周波数帯打ち法は完全な密度計算をもたらす。
提案手法をMobileNetV2に適用することにより,計算時間を22%削減し,精度を1%向上させる。
論文 参考訳(メタデータ) (2021-09-16T04:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。