論文の概要: S-PRESSO: Ultra Low Bitrate Sound Effect Compression With Diffusion Autoencoders And Offline Quantization
- arxiv url: http://arxiv.org/abs/2602.15082v1
- Date: Mon, 16 Feb 2026 10:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.860977
- Title: S-PRESSO: Ultra Low Bitrate Sound Effect Compression With Diffusion Autoencoders And Offline Quantization
- Title(参考訳): S-presso:拡散オートエンコーダとオフライン量子化による超低ビットレート音効果圧縮
- Authors: Zineb Lahrichi, Gaëtan Hadjeres, Gaël Richard, Geoffroy Peeters,
- Abstract要約: 我々は,48kHzの音響効果圧縮モデルであるS-PRESSOについて述べる。
我々のモデルは、遅延エンコーダが学習した圧縮オーディオ埋め込みを復号するために、事前訓練された潜時拡散モデルに依存している。
S-PRESSOは、音質、音響的類似性、再現性の両方において、連続的および離散的ベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 24.710418261668888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio compression models have recently achieved extreme compression rates, enabling efficient latent generative modeling. Conversely, latent generative models have been applied to compression, pushing the limits of continuous and discrete approaches. However, existing methods remain constrained to low-resolution audio and degrade substantially at very low bitrates, where audible artifacts are prominent. In this paper, we present S-PRESSO, a 48kHz sound effect compression model that produces both continuous and discrete embeddings at ultra-low bitrates, down to 0.096 kbps, via offline quantization. Our model relies on a pretrained latent diffusion model to decode compressed audio embeddings learned by a latent encoder. Leveraging the generative priors of the diffusion decoder, we achieve extremely low frame rates, down to 1Hz (750x compression rate), producing convincing and realistic reconstructions at the cost of exact fidelity. Despite operating at high compression rates, we demonstrate that S-PRESSO outperforms both continuous and discrete baselines in audio quality, acoustic similarity and reconstruction metrics.
- Abstract(参考訳): ニューラルオーディオ圧縮モデルは、最近極端な圧縮速度を達成し、効率的な潜時生成モデリングを可能にした。
逆に、遅延生成モデルは圧縮に適用され、連続的および離散的なアプローチの限界を押し広げている。
しかし、既存の手法は低分解能オーディオに制約され、可聴アーチファクトが顕著な非常に低ビットレートで分解される。
本稿では,48kHzの音響効果圧縮モデルであるS-PRESSOについて述べる。
我々のモデルは、遅延エンコーダが学習した圧縮オーディオ埋め込みを復号するために、事前訓練された潜時拡散モデルに依存している。
拡散復号器の再生先を生かし, フレームレートを1Hz(750倍圧縮速度)まで低下させ, 正確な忠実さを犠牲にして実現可能かつ現実的な再構成を実現する。
S-PRESSOは高い圧縮率で動作しているにもかかわらず、音質、音響的類似性、再現性の両方において、連続的および離散的ベースラインよりも優れていることを示す。
関連論文リスト
- MTC-VAE: Multi-Level Temporal Compression with Content Awareness [54.85288415164888]
Latent Video Diffusion Models (LVDMs) は可変オートエンコーダ (VAEs) を使ってビデオをコンパクトな遅延表現に圧縮する。
固定圧縮率VAEを多段階時間圧縮をサポートするモデルに変換する手法を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:08:02Z) - FLaTEC: Frequency-Disentangled Latent Triplanes for Efficient Compression of LiDAR Point Clouds [52.997038111673966]
FLaTECは、圧縮率の高いフルスキャンの圧縮を可能にする周波数対応圧縮モデルである。
ボキセル化埋め込みを三面体表現に変換することで、空間性、計算コスト、ストレージ要件を低減する。
提案手法は,最先端の速度歪み性能を実現し,標準コーデックのBDレートを78%,94%向上させる。
論文 参考訳(メタデータ) (2025-11-25T08:37:49Z) - CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio [7.093237513313511]
CoDiCodecは、要約埋め込みを通じてグローバル機能を効率的に符号化することで、制限を克服する新しいオーディオオートエンコーダである。
11Hzで圧縮された連続埋め込みと、同じ訓練されたモデルから2.38kbpsの速度で離散トークンを生成する。
我々の研究は、連続的な生成的モデリングパラダイムと離散的なモデリングパラダイムのギャップを埋め、オーディオ圧縮に対する統一的なアプローチを可能にする。
論文 参考訳(メタデータ) (2025-09-11T20:31:18Z) - Single-step Diffusion for Image Compression at Ultra-Low Bitrates [19.76457078979179]
超低速度で高い知覚品質と高速デコードを実現する画像圧縮のための単一ステップ拡散モデルを提案する。
このアプローチには2つの重要なイノベーションが含まれている。 (i) ベクトル量子残留(VQ-Residual)トレーニング。
圧縮性能は最先端の手法に匹敵し,デコード速度を約50倍向上させる。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [39.746866725267516]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
実験により、OSCARは量的および視覚的品質の指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。
CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文 参考訳(メタデータ) (2025-05-19T14:13:14Z) - A Residual Diffusion Model for High Perceptual Quality Codec
Augmentation [1.868930790098705]
拡散確率モデルは最近、高品質の画像とビデオデータの生成において顕著な成功を収めている。
本研究では,この生成モデルに基づいて,高解像度画像の損失圧縮手法を提案する。
拡散確率モデルからのサンプリングは高額であることが知られているが, 圧縮設定では, ステップ数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2023-01-13T11:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。