論文の概要: EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding
- arxiv url: http://arxiv.org/abs/2601.17517v1
- Date: Sat, 24 Jan 2026 16:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.901453
- Title: EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding
- Title(参考訳): EuleroDec: 効率的かつロバストなオーディオ符号化のための複合価値RVQ-VAE
- Authors: Luca Cerovaz, Michele Mancusi, Emanuele Rodolà,
- Abstract要約: ほとんどの周波数領域のニューラルコーデックは位相情報を無視するか、2つの独立した実数値チャネルとして符号化し、空間的忠実度を制限する。
これは、収束速度と訓練安定性を犠牲にして、敵対的差別者を導入する必要がある。
本稿では,解析量子化合成パイプライン全体にわたって大域的な位相結合を保ちながら,終端から終端までの複雑なRVQ-VAEオーディオ合成を提案する。
- 参考スコア(独自算出の注目度): 18.199202388702144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio codecs power discrete music generative modelling, music streaming, and immersive media by shrinking PCM audio to bandwidth-friendly bitrates. Recent works have gravitated towards processing in the spectral domain; however, spectrogram domains typically struggle with phase modeling, which is naturally complex-valued. Most frequency-domain neural codecs either disregard phase information or encode it as two separate real-valued channels, limiting spatial fidelity. This entails the need to introduce adversarial discriminators at the expense of convergence speed and training stability to compensate for the inadequate representation power of the audio signal. In this work we introduce an end-to-end complex-valued RVQ-VAE audio codec that preserves magnitude-phase coupling across the entire analysis-quantization-synthesis pipeline and removes adversarial discriminators and diffusion post-filters. Without GANs or diffusion, we match or surpass much longer-trained baselines in-domain and reach SOTA out-of-domain performance on phase coherence and waveform fidelity. Compared to standard baselines that train for hundreds of thousands of steps, our model, which reduces the training budget by an order of magnitude, is markedly more compute-efficient while preserving high perceptual quality.
- Abstract(参考訳): オーディオコーデックは、PCMオーディオを帯域幅に優しいビットレートに縮小することで、離散音楽生成モデリング、音楽ストリーミング、没入型メディアに電力を供給する。
近年の研究はスペクトル領域の処理に向けて進んでいるが、スペクトログラム領域は一般的に位相モデリングに苦しむが、これは自然に複雑に評価される。
ほとんどの周波数領域のニューラルコーデックは位相情報を無視するか、2つの独立した実数値チャネルとして符号化し、空間的忠実度を制限する。
これにより、音声信号の表現力の不足を補うために、収束速度と訓練安定性を犠牲にして、敵対的判別器を導入する必要が生じる。
本研究では,解析量子化合成パイプライン全体にわたって大域的な位相結合を保ち,逆微分器と拡散後フィルタを除去する,終端から終端までの複素数値RVQ-VAEオーディオコーデックを提案する。
GANや拡散がなければ、より長い訓練を受けたベースラインをドメイン内でマッチングまたは超越し、位相コヒーレンスと波形忠実度に基づいてSOTAの領域外性能に達する。
数十万のステップでトレーニングする標準ベースラインと比較して、トレーニング予算を桁違いに削減するモデルでは、高い知覚品質を維持しながら、計算効率が著しく向上する。
関連論文リスト
- SONAR: Spectral-Contrastive Audio Residuals for Generalizable Deepfake Detection [6.042897432654865]
Spectral-cONtrastive Audio Residuals (AR)は、ディープフェイクオーディオ検出器のための周波数誘導フレームワークである。
ARは音声信号を補完表現に切り離す。
ASVspoof 2021およびin-the-wildベンチマークで評価した。
論文 参考訳(メタデータ) (2025-11-26T12:16:38Z) - Learning to Upsample and Upmix Audio in the Latent Domain [14.777092647088756]
ニューラルオーディオオートエンコーダは、知覚的に重要な情報を保持するコンパクトな潜在表現を生成する。
本稿では,オートエンコーダの潜在空間内で音声処理を行うフレームワークを提案する。
生音声における後処理に匹敵する品質を維持しつつ,最大100倍の計算効率向上を示す。
論文 参考訳(メタデータ) (2025-05-31T19:27:22Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。
信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。
我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文 参考訳(メタデータ) (2023-09-05T19:19:22Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。