論文の概要: Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates
- arxiv url: http://arxiv.org/abs/2509.09550v2
- Date: Fri, 12 Sep 2025 06:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 12:05:48.675411
- Title: Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates
- Title(参考訳): 低ビットレートでの冗長・透過性ニューラルオーディオ圧縮を可能にする有限スカラー量子化
- Authors: Harry Julian, Rachel Beeson, Lohith Konathala, Johanna Ulin, Jiameng Gao,
- Abstract要約: 我々は,Finite Scalar Quantization (FSQ) が,ノイズチャネルを介して伝送されるときにロバストな符号化を生成する,焼き込み冗長性を符号化していることを示す。
ノイズチャネルによるコードシーケンスの伝送をシミュレートする際の RVQ と FSQ コーデックの性能を比較することにより,FSQ のビットレベルの摂動が極めて優れていることを示す。
- 参考スコア(独自算出の注目度): 1.445167946386569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Audio Codecs (NACs) have become increasingly adopted in speech processing tasks due to their excellent rate-distortion performance and compatibility with Large Language Models (LLMs) as discrete feature representations for audio generation. While most existing codecs rely on Residual Vector Quantization (RVQ), Finite Scalar Quantization (FSQ) has recently emerged as a compelling alternative that simplifies training and natively supports single codebooks. We introduce NeuCodec, an FSQ-based NAC, and show that FSQ encodes baked-in redundancy which produces an encoding which is robust when transmitted through noisy channels. First, through an encoder distillation experiment, we show that two different encoders can learn to encode identical audio into vastly different code sequences whilst maintaining comparable reconstruction quality with the same quantizer and decoder. Second, we demonstrate that FSQ has vastly superior bit-level perturbation robustness by comparing the performance of RVQ and FSQ codecs when simulating the transmission of code sequences through a noisy channel.
- Abstract(参考訳): ニューラルオーディオコーデック(NAC)は、音声生成のための離散的特徴表現として、高い速度歪み性能とLarge Language Models(LLM)との互換性により、音声処理タスクに採用されつつある。
ほとんどの既存のコーデックはResidual Vector Quantization (RVQ)に依存しているが、Finite Scalar Quantization (FSQ)は最近、トレーニングを単純化し、単一のコードブックをネイティブにサポートする魅力的な代替手段として登場した。
我々は、FSQベースのNACであるNeuCodecを導入し、FSQが焼入れ冗長性を符号化し、ノイズチャネルを介して伝送されるときにロバストな符号化を生成することを示す。
まず、エンコーダ蒸留実験により、2つの異なるエンコーダが、同じ量子化器とデコーダで同等の再構成品質を維持しながら、全く異なるコードシーケンスに同一のオーディオを符号化することを学習できることを示す。
第2に,ノイズチャネルによる符号列の伝送を模擬する場合の RVQ と FSQ コーデックの性能を比較することにより,FSQ のビットレベルの摂動堅牢性が極めて優れていることを示す。
関連論文リスト
- UniSRCodec: Unified and Low-Bitrate Single Codebook Codec with Sub-Band Reconstruction [16.235083704438313]
ニューラルオーディオコーデック(NAC)は、コンパクトな圧縮と再構成を実行することで送信オーバーヘッドを低減することができる。
既存のNACは、マルチコードブックとシングルコードブックコーデックの2つのカテゴリに分けられる。
提案するUniSRCodecは,高サンプリングレート,低帯域幅,高忠実度,統一性をサポート可能なシングルコードブックである。
論文 参考訳(メタデータ) (2026-01-06T07:20:05Z) - CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio [7.093237513313511]
CoDiCodecは、要約埋め込みを通じてグローバル機能を効率的に符号化することで、制限を克服する新しいオーディオオートエンコーダである。
11Hzで圧縮された連続埋め込みと、同じ訓練されたモデルから2.38kbpsの速度で離散トークンを生成する。
我々の研究は、連続的な生成的モデリングパラダイムと離散的なモデリングパラダイムのギャップを埋め、オーディオ圧縮に対する統一的なアプローチを可能にする。
論文 参考訳(メタデータ) (2025-09-11T20:31:18Z) - Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding [0.0]
本稿では, 複雑な残差ベクトル量子化スタックの必要性に対して, より単純な単一段階量子化アプローチを導入することにより, ニューラルスピーチを提案する。
本手法は,メル・スペクトログラムを直接操作し,それを2次元データとして扱い,重複しない4x4パッチを1つの共有コードブックに定量化する。
このパッチワイズ設計はアーキテクチャを単純化し、低レイテンシのストリーミングを可能にし、離散遅延グリッドを生成する。
論文 参考訳(メタデータ) (2025-09-02T12:14:41Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-08T21:36:10Z) - L3AC: Towards a Lightweight and Lossless Audio Codec [10.903708510237875]
我々は、単一量子化器と高効率アーキテクチャを活用することで課題に対処する軽量なニューラルオーディオであるL3ACを紹介する。
L3ACは、複数の時間スケールにわたる音響変化を捉えるように設計された新しい構造であるTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを探索する。
論文 参考訳(メタデータ) (2025-04-07T11:34:39Z) - SNAC: Multi-Scale Neural Audio Codec [1.0753191494611891]
マルチスケールニューラルオーディオコーデックはRVQの単純な拡張であり、量子化器は異なる時間分解能で動作することができる。
本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるマルチスケールニューラルオーディオコーデックを提案する。
論文 参考訳(メタデータ) (2024-10-18T12:24:05Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Cross-Scale Vector Quantization for Scalable Neural Speech Coding [22.65761249591267]
ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。
本稿では,クロススケールな拡張型ベクトル量子化スキーム(CSVQ)を提案する。
このように、ビットストリームの一部しか受信していない場合、粗いレベル信号が再構成され、より多くのビットが利用可能になるにつれて、徐々に品質が向上する。
論文 参考訳(メタデータ) (2022-07-07T03:23:25Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。