論文の概要: UniSRCodec: Unified and Low-Bitrate Single Codebook Codec with Sub-Band Reconstruction
- arxiv url: http://arxiv.org/abs/2601.02776v1
- Date: Tue, 06 Jan 2026 07:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.844759
- Title: UniSRCodec: Unified and Low-Bitrate Single Codebook Codec with Sub-Band Reconstruction
- Title(参考訳): UniSRCodec:サブバンド再構成による統一かつ低ビットのシングルコードブックコーデック
- Authors: Zhisheng Zhang, Xiang Li, Yixuan Zhou, Jing Peng, Shengbo Cai, Guoyang Zeng, Zhiyong Wu,
- Abstract要約: ニューラルオーディオコーデック(NAC)は、コンパクトな圧縮と再構成を実行することで送信オーバーヘッドを低減することができる。
既存のNACは、マルチコードブックとシングルコードブックコーデックの2つのカテゴリに分けられる。
提案するUniSRCodecは,高サンプリングレート,低帯域幅,高忠実度,統一性をサポート可能なシングルコードブックである。
- 参考スコア(独自算出の注目度): 16.235083704438313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Audio Codecs (NACs) can reduce transmission overhead by performing compact compression and reconstruction, which also aim to bridge the gap between continuous and discrete signals. Existing NACs can be divided into two categories: multi-codebook and single-codebook codecs. Multi-codebook codecs face challenges such as structural complexity and difficulty in adapting to downstream tasks, while single-codebook codecs, though structurally simpler, suffer from low-fidelity, ineffective modeling of unified audio, and an inability to support modeling of high-frequency audio. We propose the UniSRCodec, a single-codebook codec capable of supporting high sampling rate, low-bandwidth, high fidelity, and unified. We analyze the inefficiency of waveform-based compression and introduce the time and frequency compression method using the Mel-spectrogram, and cooperate with a Vocoder to recover the phase information of the original audio. Moreover, we propose a sub-band reconstruction technique to achieve high-quality compression across both low and high frequency bands. Subjective and objective experimental results demonstrate that UniSRCodec achieves state-of-the-art (SOTA) performance among cross-domain single-codebook codecs with only a token rate of 40, and its reconstruction quality is comparable to that of certain multi-codebook methods. Our demo page is available at https://wxzyd123.github.io/unisrcodec.
- Abstract(参考訳): ニューラルオーディオコーデック(NAC)は、コンパクトな圧縮と再構成を行い、連続的な信号と離散的な信号のギャップを埋めることを目的として伝送オーバーヘッドを削減する。
既存のNACは、マルチコードブックとシングルコードブックコーデックの2つのカテゴリに分けられる。
マルチコードブックコーデックは、ダウンストリームタスクに適応する際の構造的複雑さや難易度といった課題に直面するが、シングルコードブックコーデックは構造的に単純であるが、低忠実性、統一オーディオの非効率なモデリング、高周波オーディオのモデリングをサポートする能力に悩まされている。
提案するUniSRCodecは,高サンプリングレート,低帯域幅,高忠実度,統一性をサポート可能なシングルコードブックコーデックである。
波形ベース圧縮の非効率性を解析し,Mel-spectrogram を用いた時間・周波数圧縮手法を導入し,Vocoder と連携して元の音声の位相情報を復元する。
さらに,低周波帯と高周波帯の双方にわたって高品質な圧縮を実現するサブバンド再構成手法を提案する。
主観的および客観的な実験結果から、UniSRCodecはトークンレートが40のクロスドメイン単一コードブックコーデック間でのSOTA(State-of-the-art)性能を達成し、その再構築品質は特定のマルチコードブック手法と同等であることが示された。
私たちのデモページはhttps://wxzyd123.github.io/unisrcodec.comで公開されている。
関連論文リスト
- CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio [7.093237513313511]
CoDiCodecは、要約埋め込みを通じてグローバル機能を効率的に符号化することで、制限を克服する新しいオーディオオートエンコーダである。
11Hzで圧縮された連続埋め込みと、同じ訓練されたモデルから2.38kbpsの速度で離散トークンを生成する。
我々の研究は、連続的な生成的モデリングパラダイムと離散的なモデリングパラダイムのギャップを埋め、オーディオ圧縮に対する統一的なアプローチを可能にする。
論文 参考訳(メタデータ) (2025-09-11T20:31:18Z) - Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates [1.445167946386569]
我々は,Finite Scalar Quantization (FSQ) が,ノイズチャネルを介して伝送されるときにロバストな符号化を生成する,焼き込み冗長性を符号化していることを示す。
ノイズチャネルによるコードシーケンスの伝送をシミュレートする際の RVQ と FSQ コーデックの性能を比較することにより,FSQ のビットレベルの摂動が極めて優れていることを示す。
論文 参考訳(メタデータ) (2025-09-11T15:39:59Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - Single-step Diffusion for Image Compression at Ultra-Low Bitrates [19.76457078979179]
超低速度で高い知覚品質と高速デコードを実現する画像圧縮のための単一ステップ拡散モデルを提案する。
このアプローチには2つの重要なイノベーションが含まれている。 (i) ベクトル量子残留(VQ-Residual)トレーニング。
圧縮性能は最先端の手法に匹敵し,デコード速度を約50倍向上させる。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。