論文の概要: Back to Ear: Perceptually Driven High Fidelity Music Reconstruction
- arxiv url: http://arxiv.org/abs/2509.14912v2
- Date: Thu, 06 Nov 2025 07:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 22:27:39.597423
- Title: Back to Ear: Perceptually Driven High Fidelity Music Reconstruction
- Title(参考訳): Back to Ear:知覚駆動型高忠実度音楽再構成
- Authors: Kangdi Wang, Zhiyue Wu, Dinghao Zhou, Rui Lin, Junyu Dai, Tao Jiang,
- Abstract要約: epsilonar-VAEは、変分オートエンコーダ(VAE)を再考し最適化するオープンソースの音楽信号再構成モデルである
実験の結果、epsilonar-VAEは44.1kHzで、様々なメトリクスにわたる主要なオープンソースモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 4.380428073231143
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Variational Autoencoders (VAEs) are essential for large-scale audio tasks like diffusion-based generation. However, existing open-source models often neglect auditory perceptual aspects during training, leading to weaknesses in phase accuracy and stereophonic spatial representation. To address these challenges, we propose {\epsilon}ar-VAE, an open-source music signal reconstruction model that rethinks and optimizes the VAE training paradigm. Our contributions are threefold: (i) A K-weighting perceptual filter applied prior to loss calculation to align the objective with auditory perception. (ii) Two novel phase losses: a Correlation Loss for stereo coherence, and a Phase Loss using its derivatives--Instantaneous Frequency and Group Delay--for precision. (iii) A new spectral supervision paradigm where magnitude is supervised by all four Mid/Side/Left/Right components, while phase is supervised only by the LR components. Experiments show {\epsilon}ar-VAE at 44.1kHz substantially outperforms leading open-source models across diverse metrics, showing particular strength in reconstructing high-frequency harmonics and the spatial characteristics.
- Abstract(参考訳): 可変オートエンコーダ(VAE)は拡散ベース生成のような大規模オーディオタスクに不可欠である。
しかし、既存のオープンソースモデルは、訓練中に聴覚の知覚的側面を無視することが多く、位相精度やステレオ空間表現の弱点が生じる。
これらの課題に対処するために、VAEトレーニングパラダイムを再考し最適化するオープンソースの音楽信号再構成モデルである {\epsilon}ar-VAEを提案する。
私たちの貢献は3倍です。
一 損失計算の前に適用したK重み付き知覚フィルタにより、目的を聴覚知覚と整合させる。
(II) ステレオコヒーレンスにおける相関損失と、その誘導体を用いた位相損失の2つの新しい位相損失-即時周波数と群遅延--の精度について。
3 LR成分のみで位相を監督する一方、4つの中・下・下・下・下・下・下の各成分で等級を監督する新しいスペクトル監督パラダイム。
実験では、44.1kHzのアエプシロン(英語版)-VAEは、様々なメトリクスにわたる主要なオープンソースモデルよりも大幅に優れており、高周波高調波の再構成や空間特性の復元において特に強みを示している。
関連論文リスト
- Flexible Gravitational-Wave Parameter Estimation with Transformers [73.44614054040267]
本稿では,予測時間における多様な解析設定への適応を可能にする,フレキシブルトランスフォーマーベースのアーキテクチャをトレーニング戦略と組み合わせて導入する。
我々は、Dingo-T1と呼ばれる単一のフレキシブルモデルが、第3のLIGO-Virgo-KAGRA観測ランから48の重力波イベントを解析できることを実証した。
論文 参考訳(メタデータ) (2025-12-02T17:49:08Z) - Toward Diffusible High-Dimensional Latent Spaces: A Frequency Perspective [73.86108756585857]
我々は、エンコーダ/デコーダの動作を分析し、デコーダが詳細を回復するために高周波遅延成分に強く依存していることを確認する。
本稿ではFreqWarmについて紹介する。FreqWarmはプラグアンドプレイの周波数ウォームアップカリキュラムで、高周波潜時信号の早期露出を増大させる。
論文 参考訳(メタデータ) (2025-11-27T09:20:36Z) - SONAR: Spectral-Contrastive Audio Residuals for Generalizable Deepfake Detection [6.042897432654865]
Spectral-cONtrastive Audio Residuals (AR)は、ディープフェイクオーディオ検出器のための周波数誘導フレームワークである。
ARは音声信号を補完表現に切り離す。
ASVspoof 2021およびin-the-wildベンチマークで評価した。
論文 参考訳(メタデータ) (2025-11-26T12:16:38Z) - SWAN: Self-supervised Wavelet Neural Network for Hyperspectral Image Unmixing [0.2624902795082451]
本稿では,3段階の自己教師型ウェーブレットニューラルネットワークSWANについて紹介する。
この考え方は、自己教師付き学習パラダイムを用いて得られた不変かつ共変な特徴から潜在対称性を利用する。
信号対雑音比の異なる2つのベンチマーク合成データセットと3つの実ベンチマークハイパースペクトルデータセットで実験を行った。
論文 参考訳(メタデータ) (2025-10-26T10:05:48Z) - prNet: Data-Driven Phase Retrieval via Stochastic Refinement [0.0]
本稿では,Langevin のダイナミックスを有効活用し,効率的な後続サンプリングを実現するための新しい位相検索フレームワークを提案する。
本手法は, サンプリング, 学習復調, モデルベース更新の組み合わせにより, 知覚歪みのトレードオフをナビゲートする。
論文 参考訳(メタデータ) (2025-07-13T12:25:06Z) - SpINRv2: Implicit Neural Representation for Passband FMCW Radars [0.15193212081459279]
本研究では,周波数変調連続波レーダを用いた高忠実度ボリューム再構成のためのニューラルネットワークSpINRv2を提案する。
我々のコアコントリビューションは、クローズドフォーム合成を用いて複雑なレーダ応答をキャプチャする、完全微分可能な周波数領域フォワードモデルである。
細かな範囲の解像度で生じる曖昧なサブビンの曖昧さを解消するために、スパーシリティと正規化を導入する。
論文 参考訳(メタデータ) (2025-06-09T19:21:27Z) - Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features [10.480691005356967]
10個の周波数帯域にわたる残響時間(T60)、直接残響率(DRR)、明瞭度(C50)を盲目的に推定する統合フレームワークを提案する。
提案フレームワークは, 時間, スペクトル, およびFOA信号の空間情報を効率的に表現する, Spectro-Spatial Co Vector (SSCV) と呼ばれる新しい特徴を利用する。
論文 参考訳(メタデータ) (2024-11-05T15:20:23Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。