論文の概要: Perceptual-Neural-Physical Sound Matching
- arxiv url: http://arxiv.org/abs/2301.02886v1
- Date: Sat, 7 Jan 2023 16:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 18:58:22.066136
- Title: Perceptual-Neural-Physical Sound Matching
- Title(参考訳): 知覚-神経-物理音のマッチング
- Authors: Han Han, Vincent Lostanlen, Mathieu Lagrange
- Abstract要約: 音響マッチングアルゴリズムはパラメトリック音声合成によりターゲット波形を近似しようとする。
ディープ・ニューラル・ネットワークは持続するハーモニック・トーンのマッチングにおいて有望な結果を得た。
PNP(Perceptual-Neural-Physical Los)を施行した。
- 参考スコア(独自算出の注目度): 6.5135397572661535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound matching algorithms seek to approximate a target waveform by parametric
audio synthesis. Deep neural networks have achieved promising results in
matching sustained harmonic tones. However, the task is more challenging when
targets are nonstationary and inharmonic, e.g., percussion. We attribute this
problem to the inadequacy of loss function. On one hand, mean square error in
the parametric domain, known as "P-loss", is simple and fast but fails to
accommodate the differing perceptual significance of each parameter. On the
other hand, mean square error in the spectrotemporal domain, known as "spectral
loss", is perceptually motivated and serves in differentiable digital signal
processing (DDSP). Yet, spectral loss has more local minima than P-loss and its
gradient may be computationally expensive; hence a slow convergence. Against
this conundrum, we present Perceptual-Neural-Physical loss (PNP). PNP is the
optimal quadratic approximation of spectral loss while being as fast as P-loss
during training. We instantiate PNP with physical modeling synthesis as decoder
and joint time-frequency scattering transform (JTFS) as spectral
representation. We demonstrate its potential on matching synthetic drum sounds
in comparison with other loss functions.
- Abstract(参考訳): 音響マッチングアルゴリズムは、パラメトリック音声合成による目標波形の近似を求める。
ディープニューラルネットワークは、持続的調和音にマッチする有望な結果を達成している。
しかし、ターゲットが非定常かつ非調和である場合、例えばパーカッションの場合、このタスクはより困難である。
この問題は損失関数の不適切さに起因する。
一方、「P-loss」と呼ばれるパラメトリック領域の平均二乗誤差は単純かつ高速であるが、各パラメータの異なる知覚的重要性に対応できない。
一方、スペクトル損失(spectral loss)として知られるスペクトル時間領域の平均二乗誤差は知覚的に動機付けられ、微分可能なデジタル信号処理(ddsp)の役割を果たす。
しかし、スペクトル損失はp損失よりも局所的極小度を持ち、その勾配は計算コストが高いため、収束が遅い。
本症例では,知覚神経機能障害(Perceptual-Neural-Physical Los,PNP)を呈する。
PNPは、トレーニング中のスペクトル損失の最適2次近似であり、P損失と同じ速度である。
我々は,pnpをデコーダとして物理モデリング合成し,スペクトル表現としてjtfs(joint time-frequency scattering transform)をインスタンス化する。
本研究は、他の損失関数と比較して合成ドラム音の整合性を示す。
関連論文リスト
- Understanding and Mitigating Extrapolation Failures in Physics-Informed
Neural Networks [1.1510009152620668]
異なるタイプのPDEの代表的な集合上でのPINNの補間挙動について検討する。
その結果,外挿障害は解関数の高周波数によるものではなく,フーリエスペクトルの時間的支持の変化によるものであることがわかった。
論文 参考訳(メタデータ) (2023-06-15T20:08:42Z) - Investigations on convergence behaviour of Physics Informed Neural
Networks across spectral ranges and derivative orders [0.0]
ニューラルカーネル・タンジェント(NTK)理論からの重要な推論は、スペクトルバイアス(SB)の存在である。
SBは、完全に接続されたニューラルネットワーク(ANN)のターゲット関数の低周波成分であり、トレーニング中の高周波よりもかなり高速に学習される。
これは、非常に低い学習率パラメータを持つ平均平方誤差(MSE)損失関数に対して確立される。
正規化条件下では、PINNは強いスペクトルバイアスを示し、これは微分方程式の順序によって増加することが確証されている。
論文 参考訳(メタデータ) (2023-01-07T06:31:28Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Physics-Informed Neural Network Method for Parabolic Differential
Equations with Sharply Perturbed Initial Conditions [68.8204255655161]
急激な摂動初期条件を持つパラボラ問題に対する物理インフォームドニューラルネットワーク(PINN)モデルを開発した。
ADE解の局所的な大きな勾配は(PINNでよく見られる)ラテンハイパーキューブで方程式の残余の高効率なサンプリングを行う。
本稿では,他の方法により選択した量よりも精度の高いPINNソリューションを生成する損失関数における重みの基準を提案する。
論文 参考訳(メタデータ) (2022-08-18T05:00:24Z) - Wave simulation in non-smooth media by PINN with quadratic neural
network and PML condition [2.7651063843287718]
最近提案された物理インフォームドニューラルネットワーク(PINN)は、幅広い偏微分方程式(PDE)を解くことに成功している。
本稿では、波動方程式の代わりにPINNを用いて周波数領域における音響および粘性音響散乱波動方程式を解き、震源の摂動を除去する。
PMLと2次ニューロンは、その効果と減衰を改善できることを示し、この改善の理由を議論する。
論文 参考訳(メタデータ) (2022-08-16T13:29:01Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Physics-informed neural network for ultrasound nondestructive
quantification of surface breaking cracks [0.0]
本研究では,金属板の表面破壊ひび割れの同定と特徴化の問題を解決するために,最適化された物理情報ニューラルネットワーク(PINN)を導入する。
PINNは、損失関数に部分微分方程式系の残基を追加することによって、学習過程におけるデータと物理を組み合わせることができるニューラルネットワークである。
PINNを用いて,1%の誤差で行う金属板の音速を推定し,音速の空間依存性を許容することにより,音速が低下した位置としてひび割れを識別・特徴付ける。
論文 参考訳(メタデータ) (2020-05-07T16:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。