論文の概要: Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates
- arxiv url: http://arxiv.org/abs/2509.09550v1
- Date: Thu, 11 Sep 2025 15:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.449982
- Title: Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates
- Title(参考訳): 低ビットレートでの冗長・透過性ニューラルオーディオ圧縮を可能にする有限スカラー量子化
- Authors: Harry Julia, Rachel Beeson, Lohith Konathala, Johanna Ulin, Jiameng Gao,
- Abstract要約: 我々は,Finite Scalar Quantization (FSQ) が,ノイズチャネルを介して伝送されるときにロバストな符号化を生成する,焼き込み冗長性を符号化していることを示す。
ノイズチャネルによるコードシーケンスの伝送をシミュレートする際の RVQ と FSQ コーデックの性能を比較することにより,FSQ のビットレベルの摂動が極めて優れていることを示す。
- 参考スコア(独自算出の注目度): 1.445167946386569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Audio Codecs (NACs) have become increasingly adopted in speech processing tasks due to their excellent rate-distortion performance and compatibility with Large Language Models (LLMs) as discrete feature representations for audio generation. While most existing codecs rely on Residual Vector Quantization (RVQ), Finite Scalar Quantization (FSQ) has recently emerged as a compelling alternative that simplifies training and natively supports single codebooks. We introduce NeuCodec, an FSQ-based NAC, and show that FSQ encodes baked-in redundancy which produces an encoding which is robust when transmitted through noisy channels. First, through an encoder distillation experiment, we show that two different encoders can learn to encode identical audio into vastly different code sequences whilst maintaining comparable reconstruction quality with the same quantizer and decoder. Second, we demonstrate that FSQ has vastly superior bit-level perturbation robustness by comparing the performance of RVQ and FSQ codecs when simulating the transmission of code sequences through a noisy channel.
- Abstract(参考訳): ニューラルオーディオコーデック(NAC)は、音声生成のための離散的特徴表現として、高い速度歪み性能とLarge Language Models(LLM)との互換性により、音声処理タスクに採用されつつある。
ほとんどの既存のコーデックはResidual Vector Quantization (RVQ)に依存しているが、Finite Scalar Quantization (FSQ)は最近、トレーニングを単純化し、単一のコードブックをネイティブにサポートする魅力的な代替手段として登場した。
我々は、FSQベースのNACであるNeuCodecを導入し、FSQが焼入れ冗長性を符号化し、ノイズチャネルを介して伝送されるときにロバストな符号化を生成することを示す。
まず、エンコーダ蒸留実験により、2つの異なるエンコーダが、同じ量子化器とデコーダで同等の再構成品質を維持しながら、全く異なるコードシーケンスに同一のオーディオを符号化することを学習できることを示す。
第2に,ノイズチャネルによる符号列の伝送を模擬する場合の RVQ と FSQ コーデックの性能を比較することにより,FSQ のビットレベルの摂動堅牢性が極めて優れていることを示す。
関連論文リスト
- Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding [0.0]
本稿では, 複雑な残差ベクトル量子化スタックの必要性に対して, より単純な単一段階量子化アプローチを導入することにより, ニューラルスピーチを提案する。
本手法は,メル・スペクトログラムを直接操作し,それを2次元データとして扱い,重複しない4x4パッチを1つの共有コードブックに定量化する。
このパッチワイズ設計はアーキテクチャを単純化し、低レイテンシのストリーミングを可能にし、離散遅延グリッドを生成する。
論文 参考訳(メタデータ) (2025-09-02T12:14:41Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-08T21:36:10Z) - L3AC: Towards a Lightweight and Lossless Audio Codec [10.903708510237875]
我々は、単一量子化器と高効率アーキテクチャを活用することで課題に対処する軽量なニューラルオーディオであるL3ACを紹介する。
L3ACは、複数の時間スケールにわたる音響変化を捉えるように設計された新しい構造であるTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを探索する。
論文 参考訳(メタデータ) (2025-04-07T11:34:39Z) - SNAC: Multi-Scale Neural Audio Codec [1.0753191494611891]
マルチスケールニューラルオーディオコーデックはRVQの単純な拡張であり、量子化器は異なる時間分解能で動作することができる。
本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるマルチスケールニューラルオーディオコーデックを提案する。
論文 参考訳(メタデータ) (2024-10-18T12:24:05Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Cross-Scale Vector Quantization for Scalable Neural Speech Coding [22.65761249591267]
ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。
本稿では,クロススケールな拡張型ベクトル量子化スキーム(CSVQ)を提案する。
このように、ビットストリームの一部しか受信していない場合、粗いレベル信号が再構成され、より多くのビットが利用可能になるにつれて、徐々に品質が向上する。
論文 参考訳(メタデータ) (2022-07-07T03:23:25Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。