論文の概要: Unsupervised Harmonic Parameter Estimation Using Differentiable DSP and
Spectral Optimal Transport
- arxiv url: http://arxiv.org/abs/2312.14507v3
- Date: Mon, 15 Jan 2024 10:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 23:58:52.637285
- Title: Unsupervised Harmonic Parameter Estimation Using Differentiable DSP and
Spectral Optimal Transport
- Title(参考訳): 微分可能DSPとスペクトル最適輸送を用いた教師なし高調波パラメータ推定
- Authors: Bernardo Torres (S2A, IDS), Geoffroy Peeters (S2A, IDS), Ga\"el
Richard (S2A, IDS)
- Abstract要約: スペクトルエネルギーの変位を最小限に抑える最適輸送理論に着想を得たスペクトル損失関数を提案する。
我々は、調和信号に調和テンプレートを適合させる教師なしの自動符号化タスクを通じて、このアプローチを検証する。
我々は、軽量エンコーダを用いてハーモニックの基本周波数と振幅を共同で推定し、微分可能なハーモニックシンセサイザーを用いて信号を再構成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In neural audio signal processing, pitch conditioning has been used to
enhance the performance of synthesizers. However, jointly training pitch
estimators and synthesizers is a challenge when using standard audio-to-audio
reconstruction loss, leading to reliance on external pitch trackers. To address
this issue, we propose using a spectral loss function inspired by optimal
transportation theory that minimizes the displacement of spectral energy. We
validate this approach through an unsupervised autoencoding task that fits a
harmonic template to harmonic signals. We jointly estimate the fundamental
frequency and amplitudes of harmonics using a lightweight encoder and
reconstruct the signals using a differentiable harmonic synthesizer. The
proposed approach offers a promising direction for improving unsupervised
parameter estimation in neural audio applications.
- Abstract(参考訳): ニューラルオーディオ信号処理では、ピッチコンディショニングがシンセサイザーの性能向上に使われている。
しかし, 音高推定器と合成器の併用は, 標準音高再生損失を用いた場合の課題であり, 外部の音高トラッカーに依存している。
そこで本稿では,スペクトルエネルギーの変位を最小化する最適輸送理論に着想を得たスペクトル損失関数を提案する。
我々は、調和テンプレートを調和信号に適合させる教師なしの自動符号化タスクを通じて、このアプローチを検証する。
軽量エンコーダを用いて高調波の基本周波数と振幅を共同で推定し,可微分高調波合成器を用いて信号を再構成する。
提案手法は、ニューラルオーディオアプリケーションにおける教師なしパラメータ推定を改善するための有望な方向を提供する。
関連論文リスト
- Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Differentiable WORLD Synthesizer-based Neural Vocoder With Application
To End-To-End Audio Style Transfer [6.29475963948119]
本稿では,WORLDシンセサイザーを試作し,エンド・ツー・エンドのオーディオ・スタイル・トランスファー・タスクでの利用を実証する。
ベースライン微分可能シンセサイザーはモデルパラメータを持たないが、十分な品質合成が得られる。
別の微分可能なアプローチでは、ソーススペクトルの抽出を直接考慮し、自然性を改善することができる。
論文 参考訳(メタデータ) (2022-08-15T15:48:36Z) - Blind Equalization and Channel Estimation in Coherent Optical
Communications Using Variational Autoencoders [1.7188280334580193]
光通信におけるキャリア回復のための変分推論に基づく適応型ブラインド等化器の可能性について検討する。
変分オートエンコーダ(VAE)等化器の概念を高次変調形式に一般化する。
論文 参考訳(メタデータ) (2022-04-25T16:46:03Z) - Iterative Adaptive Spectroscopy of Short Signals [0.1338174941551702]
ラムゼー干渉法に基づく適応周波数検出プロトコルを開発した。
ラムゼイ配列を強化し、センシング状態と読み出し状態の両方で高い忠実度で調製することにより、高精度を実現する。
論文 参考訳(メタデータ) (2022-04-10T18:07:50Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Differentiable Digital Signal Processing Mixture Model for Synthesis
Parameter Extraction from Mixture of Harmonic Sounds [29.012177604120048]
DDSPオートエンコーダ(DDSP Autoencoder)は、ディープニューラルネットワーク(DNN)とスペクトルモデリング合成を組み合わせた音響である。
入力音から抽出した基本周波数,音色,大音量(合成パラメータ)を変化させることで,音を柔軟に編集することができる。
モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニックの混合音を扱えない。
論文 参考訳(メタデータ) (2022-02-01T03:38:49Z) - Adaptive Low-Pass Filtering using Sliding Window Gaussian Processes [71.23286211775084]
ガウス過程回帰に基づく適応型低域通過フィルタを提案する。
本研究では,提案手法の誤差が一様境界であることを示す。
論文 参考訳(メタデータ) (2021-11-05T17:06:59Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。