論文の概要: Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding
- arxiv url: http://arxiv.org/abs/2509.02244v1
- Date: Tue, 02 Sep 2025 12:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.017624
- Title: Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding
- Title(参考訳): Spectrogram Patch Codec: ニューラルネットワークのための2次元ブロック量子VQ-VAEとHiFi-GAN
- Authors: Luis Felipe Chary, Miguel Arjona Ramirez,
- Abstract要約: 本稿では, 複雑な残差ベクトル量子化スタックの必要性に対して, より単純な単一段階量子化アプローチを導入することにより, ニューラルスピーチを提案する。
本手法は,メル・スペクトログラムを直接操作し,それを2次元データとして扱い,重複しない4x4パッチを1つの共有コードブックに定量化する。
このパッチワイズ設計はアーキテクチャを単純化し、低レイテンシのストリーミングを可能にし、離散遅延グリッドを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a neural speech codec that challenges the need for complex residual vector quantization (RVQ) stacks by introducing a simpler, single-stage quantization approach. Our method operates directly on the mel-spectrogram, treating it as a 2D data and quantizing non-overlapping 4x4 patches into a single, shared codebook. This patchwise design simplifies the architecture, enables low-latency streaming, and yields a discrete latent grid. To ensure high-fidelity synthesis, we employ a late-stage adversarial fine-tuning for the VQ-VAE and train a HiFi-GAN vocoder from scratch on the codec's reconstructed spectrograms. Operating at approximately 7.5 kbits/s for 16 kHz speech, our system was evaluated against several state-of-the-art neural codecs using objective metrics such as STOI, PESQ, MCD, and ViSQOL. The results demonstrate that our simplified, non-residual architecture achieves competitive perceptual quality and intelligibility, validating it as an effective and open foundation for future low-latency codec designs.
- Abstract(参考訳): 本稿では,複雑な残差ベクトル量子化(RVQ)スタックの必要性に対して,より単純な単一段階量子化アプローチを導入することで,ニューラルネットワークコーデックを提案する。
本手法は,メル・スペクトログラムを直接操作し,それを2次元データとして扱い,重複しない4x4パッチを1つの共有コードブックに定量化する。
このパッチワイズ設計はアーキテクチャを単純化し、低レイテンシのストリーミングを可能にし、離散遅延グリッドを生成する。
高忠実度合成を実現するため、我々はVQ-VAEの後期逆方向の微調整を採用し、コーデックの再構成したスペクトル上で、HiFi-GANボコーダをスクラッチから訓練する。
STOI, PESQ, MCD, ViSQOLなどの客観的指標を用いて, 16kHzの音声に対して約7.5kbits/sで動作し, 最先端のニューラルコーデックと比較した。
その結果,我々の単純化された非レジデンシャルアーキテクチャは,将来の低遅延コーデック設計のための効果的かつオープンな基盤として,競争力のある知覚品質と知性を実現することを実証した。
関連論文リスト
- HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。
本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。
この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文 参考訳(メタデータ) (2025-05-24T15:52:49Z) - L3AC: Towards a Lightweight and Lossless Audio Codec [10.903708510237875]
我々は、単一量子化器と高効率アーキテクチャを活用することで課題に対処する軽量なニューラルオーディオであるL3ACを紹介する。
L3ACは、複数の時間スケールにわたる音響変化を捉えるように設計された新しい構造であるTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを探索する。
論文 参考訳(メタデータ) (2025-04-07T11:34:39Z) - Variable Bitrate Residual Vector Quantization for Audio Coding [29.368893236587343]
最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている
これらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。
本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:18:24Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Variational Autoencoders: A Harmonic Perspective [79.49579654743341]
本研究では,高調波解析の観点から変分オートエンコーダ(VAE)について検討する。
VAEのエンコーダ分散は、VAEエンコーダとデコーダニューラルネットワークによってパラメータ化された関数の周波数内容を制御する。
論文 参考訳(メタデータ) (2021-05-31T10:39:25Z) - Parallelized Rate-Distortion Optimized Quantization Using Deep Learning [9.886383889250064]
RDOQはH.264/AVC、H.265/HEVC、VP9、AV1といった最近のビデオ圧縮標準の符号化性能において重要な役割を果たしている。
この研究は、オフラインの教師付きトレーニング中にトレードオフレートと歪みを学習するニューラルネットワークベースのアプローチを用いて、この制限に対処する。
論文 参考訳(メタデータ) (2020-12-11T14:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。