論文の概要: Back to Ear: Perceptually Driven High Fidelity Music Reconstruction
- arxiv url: http://arxiv.org/abs/2509.14912v1
- Date: Thu, 18 Sep 2025 12:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.216924
- Title: Back to Ear: Perceptually Driven High Fidelity Music Reconstruction
- Title(参考訳): Back to Ear:知覚駆動型高忠実度音楽再構成
- Authors: Kangdi Wang, Zhiyue Wu, Dinghao Zhou, Rui Lin, Junyu Dai, Tao Jiang,
- Abstract要約: epsilonar-VAEは、変分オートエンコーダ(VAE)を再考し最適化するオープンソースの音楽信号再構成モデルである
実験の結果、epsilonar-VAEは44.1kHzで、様々なメトリクスにわたる主要なオープンソースモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 4.380428073231143
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Variational Autoencoders (VAEs) are essential for large-scale audio tasks like diffusion-based generation. However, existing open-source models often neglect auditory perceptual aspects during training, leading to weaknesses in phase accuracy and stereophonic spatial representation. To address these challenges, we propose {\epsilon}ar-VAE, an open-source music signal reconstruction model that rethinks and optimizes the VAE training paradigm. Our contributions are threefold: (i) A K-weighting perceptual filter applied prior to loss calculation to align the objective with auditory perception. (ii) Two novel phase losses: a Correlation Loss for stereo coherence, and a Phase Loss using its derivatives--Instantaneous Frequency and Group Delay--for precision. (iii) A new spectral supervision paradigm where magnitude is supervised by all four Mid/Side/Left/Right components, while phase is supervised only by the LR components. Experiments show {\epsilon}ar-VAE at 44.1kHz substantially outperforms leading open-source models across diverse metrics, showing particular strength in reconstructing high-frequency harmonics and the spatial characteristics.
- Abstract(参考訳): 可変オートエンコーダ(VAE)は拡散ベース生成のような大規模オーディオタスクに不可欠である。
しかし、既存のオープンソースモデルは、訓練中に聴覚の知覚的側面を無視することが多く、位相精度やステレオ空間表現の弱点が生じる。
これらの課題に対処するために、VAEトレーニングパラダイムを再考し最適化するオープンソースの音楽信号再構成モデルである {\epsilon}ar-VAEを提案する。
私たちの貢献は3倍です。
一 損失計算の前に適用したK重み付き知覚フィルタにより、目的を聴覚知覚と整合させる。
(II) ステレオコヒーレンスにおける相関損失と、その誘導体を用いた位相損失の2つの新しい位相損失-即時周波数と群遅延--の精度について。
3 LR成分のみで位相を監督する一方、4つの中・下・下・下・下・下・下の各成分で等級を監督する新しいスペクトル監督パラダイム。
実験では、44.1kHzのアエプシロン(英語版)-VAEは、様々なメトリクスにわたる主要なオープンソースモデルよりも大幅に優れており、高周波高調波の再構成や空間特性の復元において特に強みを示している。
関連論文リスト
- prNet: Data-Driven Phase Retrieval via Stochastic Refinement [0.0]
本稿では,Langevin のダイナミックスを有効活用し,効率的な後続サンプリングを実現するための新しい位相検索フレームワークを提案する。
本手法は, サンプリング, 学習復調, モデルベース更新の組み合わせにより, 知覚歪みのトレードオフをナビゲートする。
論文 参考訳(メタデータ) (2025-07-13T12:25:06Z) - SpINRv2: Implicit Neural Representation for Passband FMCW Radars [0.15193212081459279]
本研究では,周波数変調連続波レーダを用いた高忠実度ボリューム再構成のためのニューラルネットワークSpINRv2を提案する。
我々のコアコントリビューションは、クローズドフォーム合成を用いて複雑なレーダ応答をキャプチャする、完全微分可能な周波数領域フォワードモデルである。
細かな範囲の解像度で生じる曖昧なサブビンの曖昧さを解消するために、スパーシリティと正規化を導入する。
論文 参考訳(メタデータ) (2025-06-09T19:21:27Z) - Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features [10.480691005356967]
10個の周波数帯域にわたる残響時間(T60)、直接残響率(DRR)、明瞭度(C50)を盲目的に推定する統合フレームワークを提案する。
提案フレームワークは, 時間, スペクトル, およびFOA信号の空間情報を効率的に表現する, Spectro-Spatial Co Vector (SSCV) と呼ばれる新しい特徴を利用する。
論文 参考訳(メタデータ) (2024-11-05T15:20:23Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。