論文の概要: Audio synthesizer inversion in symmetric parameter spaces with approximately equivariant flow matching
- arxiv url: http://arxiv.org/abs/2506.07199v1
- Date: Sun, 08 Jun 2025 15:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.08765
- Title: Audio synthesizer inversion in symmetric parameter spaces with approximately equivariant flow matching
- Title(参考訳): ほぼ同変フローマッチングを持つ対称パラメータ空間におけるオーディオシンセサイザーインバージョン
- Authors: Ben Hayes, Charalampos Saitis, György Fazekas,
- Abstract要約: 多くのオーディオシンセサイザーは異なるパラメータ構成で同じ信号を生成することができる。
これは主にシンセサイザーの内在対称性によるもので、特に置換不変性に着目している。
本手法を実環境の音響合成に使用するフル機能のオープンソースシンセサイザーであるSurge XTに適用することにより,音響再構成の指標間での回帰および生成ベースラインよりも優れることを示す。
- 参考スコア(独自算出の注目度): 6.390468088226496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many audio synthesizers can produce the same signal given different parameter configurations, meaning the inversion from sound to parameters is an inherently ill-posed problem. We show that this is largely due to intrinsic symmetries of the synthesizer, and focus in particular on permutation invariance. First, we demonstrate on a synthetic task that regressing point estimates under permutation symmetry degrades performance, even when using a permutation-invariant loss function or symmetry-breaking heuristics. Then, viewing equivalent solutions as modes of a probability distribution, we show that a conditional generative model substantially improves performance. Further, acknowledging the invariance of the implicit parameter distribution, we find that performance is further improved by using a permutation equivariant continuous normalizing flow. To accommodate intricate symmetries in real synthesizers, we also propose a relaxed equivariance strategy that adaptively discovers relevant symmetries from data. Applying our method to Surge XT, a full-featured open source synthesizer used in real world audio production, we find our method outperforms regression and generative baselines across audio reconstruction metrics.
- Abstract(参考訳): 多くのオーディオシンセサイザーは、異なるパラメータ構成を与えられた同じ信号を生成することができ、つまり、音からパラメータへの反転は本質的に不適切な問題である。
これは主にシンセサイザーの内在対称性によるもので、特に置換不変性に着目している。
まず, 変分非変分損失関数や対称性破りヒューリスティックスを用いても, 変分対称性下での点推定を抑えることによって, 性能が低下することを示す。
そして,等価解を確率分布のモードとして見ることにより,条件付き生成モデルにより性能が大幅に向上することを示す。
さらに、暗黙的パラメータ分布の不変性を認め、置換同変連続正規化フローを用いることにより、さらなる性能向上が図られる。
実合成器における複雑な対称性に対応するため、データから関連する対称性を適応的に発見する緩和された等価戦略を提案する。
本手法を実環境の音響合成に使用するフル機能のオープンソースシンセサイザーであるSurge XTに適用することにより,音響再構成の指標間での回帰と生成のベースラインよりも優れることを示す。
関連論文リスト
- Beyond the Permutation Symmetry of Transformers: The Role of Rotation for Model Fusion [43.299430093251736]
変圧器のパラメータ空間対称性の新たな形式である回転対称性を導入する。
置換対称性とは異なり、回転対称性は連続領域で作用し、変圧器の同値集合を著しく拡大する。
モデル融合を強化するためのプラグアンドプレイモジュールとして理論的に最適なマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-01T01:44:55Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Symmetry Breaking and Equivariant Neural Networks [17.740760773905986]
我々は「緩和された同注入」という新しい概念を導入する。
我々は、この緩和を同変多層パーセプトロン(E-MLP)に組み込む方法を示す。
対称性の破れの関連性は、様々な応用領域で議論される。
論文 参考訳(メタデータ) (2023-12-14T15:06:48Z) - Learning Probabilistic Symmetrization for Architecture Agnostic Equivariance [16.49488981364657]
群対称性を持つ学習関数における同変アーキテクチャの限界を克服する新しい枠組みを提案する。
我々は、不変量や変圧器のような任意の基底モデルを使用し、それを与えられた群に同変するように対称性付けする。
実証実験は、調整された同変アーキテクチャに対する競争結果を示す。
論文 参考訳(メタデータ) (2023-06-05T13:40:54Z) - Oracle-Preserving Latent Flows [58.720142291102135]
我々はラベル付きデータセット全体にわたって複数の非自明な連続対称性を同時に発見するための方法論を開発する。
対称性変換と対応するジェネレータは、特別に構築された損失関数で訓練された完全連結ニューラルネットワークでモデル化される。
この研究における2つの新しい要素は、縮小次元の潜在空間の使用と、高次元のオラクルに関して不変な変換への一般化である。
論文 参考訳(メタデータ) (2023-02-02T00:13:32Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。