論文の概要: CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio
- arxiv url: http://arxiv.org/abs/2509.09836v1
- Date: Thu, 11 Sep 2025 20:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.913935
- Title: CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio
- Title(参考訳): CoDiCodec: 連続的かつ離散的な圧縮されたオーディオ表現の統合
- Authors: Marco Pasini, Stefan Lattner, George Fazekas,
- Abstract要約: CoDiCodecは、要約埋め込みを通じてグローバル機能を効率的に符号化することで、制限を克服する新しいオーディオオートエンコーダである。
11Hzで圧縮された連続埋め込みと、同じ訓練されたモデルから2.38kbpsの速度で離散トークンを生成する。
我々の研究は、連続的な生成的モデリングパラダイムと離散的なモデリングパラダイムのギャップを埋め、オーディオ圧縮に対する統一的なアプローチを可能にする。
- 参考スコア(独自算出の注目度): 7.093237513313511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently representing audio signals in a compressed latent space is critical for latent generative modelling. However, existing autoencoders often force a choice between continuous embeddings and discrete tokens. Furthermore, achieving high compression ratios while maintaining audio fidelity remains a challenge. We introduce CoDiCodec, a novel audio autoencoder that overcomes these limitations by both efficiently encoding global features via summary embeddings, and by producing both compressed continuous embeddings at ~ 11 Hz and discrete tokens at a rate of 2.38 kbps from the same trained model, offering unprecedented flexibility for different downstream generative tasks. This is achieved through Finite Scalar Quantization (FSQ) and a novel FSQ-dropout technique, and does not require additional loss terms beyond the single consistency loss used for end-to-end training. CoDiCodec supports both autoregressive decoding and a novel parallel decoding strategy, with the latter achieving superior audio quality and faster decoding. CoDiCodec outperforms existing continuous and discrete autoencoders at similar bitrates in terms of reconstruction audio quality. Our work enables a unified approach to audio compression, bridging the gap between continuous and discrete generative modelling paradigms.
- Abstract(参考訳): 圧縮潜時空間における音声信号の効率的な表現は、潜時生成モデルにとって重要である。
しかし、既存のオートエンコーダは、しばしば連続的な埋め込みと離散トークンの選択を強制する。
さらに,音声の忠実度を維持しながら高い圧縮率を達成することは依然として課題である。
CoDiCodecは、要約埋め込みによるグローバル機能の効率的な符号化と、同じトレーニングモデルから2.38kbpsのレートで圧縮された連続埋め込みと離散トークンの両方を生成することにより、これらの制限を克服し、異なる下流生成タスクに対して前例のない柔軟性を提供する。
これは、Finite Scalar Quantization (FSQ) と新しいFSQドロップアウト技術によって実現され、エンドツーエンドトレーニングに使用される単一一貫性損失以上の損失項を必要としない。
CoDiCodecは自動回帰復号化と新しい並列復号化戦略の両方をサポートし、後者はより優れたオーディオ品質と高速復号化を実現している。
CoDiCodecは、再生オーディオの品質において、既存の連続および離散オートエンコーダを同様のビットレートで上回る。
我々の研究は、連続的な生成的モデリングパラダイムと離散的なモデリングパラダイムのギャップを埋め、オーディオ圧縮に対する統一的なアプローチを可能にする。
関連論文リスト
- Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates [1.445167946386569]
我々は,Finite Scalar Quantization (FSQ) が,ノイズチャネルを介して伝送されるときにロバストな符号化を生成する,焼き込み冗長性を符号化していることを示す。
ノイズチャネルによるコードシーケンスの伝送をシミュレートする際の RVQ と FSQ コーデックの性能を比較することにより,FSQ のビットレベルの摂動が極めて優れていることを示す。
論文 参考訳(メタデータ) (2025-09-11T15:39:59Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - Music2Latent2: Audio Compression with Summary Embeddings and Autoregressive Decoding [0.0]
音声信号を要約埋め込みの集合に圧縮する新しいオーディオオートエンコーダであるMusic2Latent2を紹介する。
ローカルオーディオ機能を順序付きシーケンスにエンコードする従来の方法とは異なり、Music2Latent2は音声信号を要約埋め込みのセットに圧縮する。
任意のオーディオ長を扱うために、Music2Latent2では、因果マスキングを備えた2つの連続したオーディオチャンクでトレーニングされた自動回帰一貫性モデルを採用している。
論文 参考訳(メタデータ) (2025-01-29T11:34:19Z) - Music2Latent: Consistency Autoencoders for Latent Audio Compression [0.0]
一貫性モデルを活用することで制限を克服するオーディオオートエンコーダであるMusic2Latentを紹介する。
Music2Latentは、単一エンドツーエンドのトレーニングプロセスにおいて、サンプルを圧縮された連続潜伏空間にエンコードする。
Music2Latentは、音質と再現精度において、既存の連続オーディオオートエンコーダよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-12T21:25:19Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。