論文の概要: An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms
- arxiv url: http://arxiv.org/abs/2301.07665v1
- Date: Wed, 18 Jan 2023 17:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 15:15:19.475863
- Title: An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms
- Title(参考訳): log-mel-spectrograms用畳み込みオートエンコーダの再構成能力の検討
- Authors: Anastasia Natsiou, Luca Longo, Sean O'Leary
- Abstract要約: 音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
- 参考スコア(独自算出の注目度): 2.3204178451683264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In audio processing applications, the generation of expressive sounds based
on high-level representations demonstrates a high demand. These representations
can be used to manipulate the timbre and influence the synthesis of creative
instrumental notes. Modern algorithms, such as neural networks, have inspired
the development of expressive synthesizers based on musical instrument timbre
compression. Unsupervised deep learning methods can achieve audio compression
by training the network to learn a mapping from waveforms or spectrograms to
low-dimensional representations. This study investigates the use of stacked
convolutional autoencoders for the compression of time-frequency audio
representations for a variety of instruments for a single pitch. Further
exploration of hyper-parameters and regularization techniques is demonstrated
to enhance the performance of the initial design. In an unsupervised manner,
the network is able to reconstruct a monophonic and harmonic sound based on
latent representations. In addition, we introduce an evaluation metric to
measure the similarity between the original and reconstructed samples.
Evaluating a deep generative model for the synthesis of sound is a challenging
task. Our approach is based on the accuracy of the generated frequencies as it
presents a significant metric for the perception of harmonic sounds. This work
is expected to accelerate future experiments on audio compression using neural
autoencoders.
- Abstract(参考訳): 音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音の生成は高い需要を示す。
これらの表現は音色を操り、創造的な器楽音の合成に影響を与えることができる。
ニューラルネットワークのような現代のアルゴリズムは、楽器の音色圧縮に基づく表現的シンセサイザーの開発に影響を与えた。
教師なしのディープラーニングは、ネットワークを訓練して波形やスペクトログラムから低次元表現へのマッピングを学ぶことで、オーディオ圧縮を実現することができる。
本研究では,重畳畳型オートエンコーダを用いて,各楽器の時間周波数音声表現の圧縮について検討した。
ハイパーパラメータと正規化技術のさらなる探索により、初期設計の性能が向上した。
教師なしの方法で、ネットワークは潜在表現に基づいて単音と調和音を再構成することができる。
また,本研究では,オリジナルと再構成されたサンプルの類似度を測定するための評価基準を導入する。
音声合成のための深部生成モデルの評価は難しい課題である。
本手法は,高調波音の知覚に重要な指標を示すため,生成された周波数の精度に基づく。
この研究は、ニューラルオートエンコーダを用いた音声圧縮実験の加速が期待されている。
関連論文リスト
- From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Neural Waveshaping Synthesis [0.0]
ニューラルオーディオ合成に対する,新しい,軽量で完全な因果的アプローチを提案する。
ニューラルウェーブシェイピングユニット(NEWT)は、波形領域で直接動作する。
入力信号と出力信号の単純なアフィン変換によって複雑な鼓膜進化を生成する。
論文 参考訳(メタデータ) (2021-07-11T13:50:59Z) - Training a Deep Neural Network via Policy Gradients for Blind Source
Separation in Polyphonic Music Recordings [1.933681537640272]
音響信号における楽器の音の盲点分離法を提案する。
パラメトリックモデルを用いて個々の音色を記述し、辞書を訓練し、高調波の相対振幅を捉える。
提案アルゴリズムは,様々な音声サンプルに対して,特に低干渉で高品質な結果が得られる。
論文 参考訳(メタデータ) (2021-07-09T06:17:04Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文 参考訳(メタデータ) (2020-08-04T07:08:04Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。