論文の概要: Q2D2: A Geometry-Aware Audio Codec Leveraging Two-Dimensional Quantization
- arxiv url: http://arxiv.org/abs/2512.01537v1
- Date: Mon, 01 Dec 2025 11:06:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.815762
- Title: Q2D2: A Geometry-Aware Audio Codec Leveraging Two-Dimensional Quantization
- Title(参考訳): Q2D2:二次元量子化を利用した幾何学的オーディオコーデック
- Authors: Tal Shuster, Eliya Nachmani,
- Abstract要約: 2次元量子化(Q2D2)は,2次元格子上に特徴対を投影する量子化方式である。
単純な幾何学的定式化にもかかわらず、Q2D2は低いトークンレートと高いコードブック使用率でオーディオ圧縮効率を向上させる。
- 参考スコア(独自算出の注目度): 8.458339111154585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent neural audio codecs have achieved impressive reconstruction quality, typically relying on quantization methods such as Residual Vector Quantization (RVQ), Vector Quantization (VQ) and Finite Scalar Quantization (FSQ). However, these quantization techniques limit the geometric structure of the latent space, make it harder to capture correlations between features leading to inefficiency in representation learning, codebook utilization and token rate. In this paper we introduce Two Dimensional Quantization (Q2D2), a quantization scheme in which feature pairs are projected onto structured 2D grids such as hexagonal, rhombic, or rectangular tiling and quantized to the nearest grid values, yielding an implicit codebook defined by the product of grid levels, with codebook sizes comparable to conventional methods. Despite its simple geometric formulation, Q2D2 improves audio compression efficiency, with low token rates and high codebook utilization while maintaining state of the art reconstruction quality. Specifically, Q2D2 achieves competitive to superior performance in various objective and subjective reconstruction metrics, across extensive experiments in speech domain compared to state of the art models. Comprehensive ablation studies further confirm the effectiveness of our design choices.
- Abstract(参考訳): 近年のニューラルオーディオコーデックは、Residual Vector Quantization (RVQ)、Vector Quantization (VQ)、Finite Scalar Quantization (FSQ)といった量子化手法に依存している。
しかし、これらの量子化手法は、潜在空間の幾何学的構造を制限し、表現学習、コードブック利用、トークンレートの非効率性につながる特徴間の相関を捉えにくくする。
本稿では,特徴対を六角形,六角形,長方形などの2次元グリッド上に投影し,最寄りのグリッド値に量子化し,グリッドレベルの積によって定義された暗黙のコードブックを,従来の手法に匹敵するコードブックサイズで生成する量子化スキームである2次元量子化(Q2D2)を提案する。
単純な幾何学的定式化にもかかわらず、Q2D2は音声圧縮効率を向上し、トークンレートが低く、コードブックの利用率も高く、最先端の再構築品質を維持している。
具体的には、Q2D2は、様々な客観的、主観的再構成指標において、最先端のモデルと比較して、音声領域における広範な実験よりも優れた性能を達成する。
包括的アブレーション研究は、設計選択の有効性をさらに確認する。
関連論文リスト
- VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - R2Q: Towards Robust 2-Bit Large Language Models via Residual Refinement Quantization [20.861971198175674]
Residual Refinement Quantization (R2Q)は、2つのシーケンシャルな1ビットサブ量子化に分解する新しい2ビット量子化フレームワークである。
R2Qは、細粒度と粗粒度の両方で既存の2ビット量子化法より一貫して優れている。
論文 参考訳(メタデータ) (2025-11-21T12:39:44Z) - Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding [0.0]
本稿では, 複雑な残差ベクトル量子化スタックの必要性に対して, より単純な単一段階量子化アプローチを導入することにより, ニューラルスピーチを提案する。
本手法は,メル・スペクトログラムを直接操作し,それを2次元データとして扱い,重複しない4x4パッチを1つの共有コードブックに定量化する。
このパッチワイズ設計はアーキテクチャを単純化し、低レイテンシのストリーミングを可能にし、離散遅延グリッドを生成する。
論文 参考訳(メタデータ) (2025-09-02T12:14:41Z) - 2D Gaussians Meet Visual Tokenizer [46.20437041493538]
VQ-GANのような既存の量子化ベースのトークンは、主にテクスチャや色のような外観機能に焦点を当てている。
構造モデリングを明示的に強化する新しいトークン化パラダイムであるVisual Gaussian Quantization (VGQ)を提案する。
ImageNet 256x256ベンチマークでは、VGQは、rFIDスコア1.00の強い再構成品質を達成した。
論文 参考訳(メタデータ) (2025-08-19T05:04:10Z) - Quantum Visual Fields with Neural Amplitude Encoding [70.86293548779774]
本稿では2次元画像と3次元幾何場学習のための新しいタイプの量子入射ニューラル表現(QINR)を提案する。
QVFは古典的なデータを学習可能エネルギー多様体に接地したニューラル振幅符号化を用いて量子状態ベクトルに符号化する。
我々のアンサッツは、学習可能なパラメトリド量子回路の完全に絡み合った設計に従い、実際のヒルベルト空間で量子(単位)演算を行う。
論文 参考訳(メタデータ) (2025-08-14T17:59:52Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Learning Representations for CSI Adaptive Quantization and Feedback [51.14360605938647]
本稿では,周波数分割二重化システムにおける適応量子化とフィードバックの効率的な手法を提案する。
既存の研究は主に、CSI圧縮のためのオートエンコーダ(AE)ニューラルネットワークの実装に焦点を当てている。
1つはポストトレーニング量子化に基づくもので、もう1つはAEのトレーニング中にコードブックが見つかる方法である。
論文 参考訳(メタデータ) (2022-07-13T08:52:13Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。