論文の概要: FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation
- arxiv url: http://arxiv.org/abs/2509.16195v1
- Date: Fri, 19 Sep 2025 17:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.266718
- Title: FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation
- Title(参考訳): FocalCodec-Stream: 因果蒸留による低ビットレート音声符号化のストリーミング
- Authors: Luca Della Libera, Cem Subakan, Mirco Ravanelli,
- Abstract要約: FocalCodec-Streamは、音声を1つのバイナリコードブックに0.55から0.80kbpsで圧縮し、理論的な遅延は80msである。
実験によると、FocalCodec-Streamは既存のストリーム可能なコーデックを同等の性能で上回っている。
- 参考スコア(独自算出の注目度): 27.32235541083431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage causal distillation of WavLM with targeted architectural improvements, including a lightweight refiner module that enhances quality under latency constraints. Experiments show that FocalCodec-Stream outperforms existing streamable codecs at comparable bitrates, while preserving both semantic and acoustic information. The result is a favorable trade-off between reconstruction quality, downstream task performance, latency, and efficiency. Code and checkpoints will be released at https://github.com/lucadellalib/focalcodec.
- Abstract(参考訳): ニューラルオーディオコーデックは、現代の生成オーディオパイプラインの基本コンポーネントである。
最近のコーデックは、低ビットレートの強い再構成を実現し、下流タスクの強力な表現を提供するが、その多くは非ストリーム可能であり、リアルタイムアプリケーションでの使用を制限する。
本稿では, 局所変調に基づくハイブリッドコーデックであるFocalCodec-Streamについて, 音声を0.55~0.80kbpsで1つのバイナリコードブックに圧縮し, 理論的遅延が80msであることを示す。
実験によると、FocalCodec-Streamは、意味情報と音響情報の両方を保持しながら、既存のストリーミングコーデックを同等のビットレートで上回る。
その結果、リコンストラクションの品質、ダウンストリームタスクのパフォーマンス、レイテンシ、効率のトレードオフが好まれます。
コードとチェックポイントはhttps://github.com/lucadellalib/focalcodec.comで公開される。
関連論文リスト
- Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates [1.445167946386569]
我々は,Finite Scalar Quantization (FSQ) が,ノイズチャネルを介して伝送されるときにロバストな符号化を生成する,焼き込み冗長性を符号化していることを示す。
ノイズチャネルによるコードシーケンスの伝送をシミュレートする際の RVQ と FSQ コーデックの性能を比較することにより,FSQ のビットレベルの摂動が極めて優れていることを示す。
論文 参考訳(メタデータ) (2025-09-11T15:39:59Z) - NanoCodec: Towards High-Quality Ultra Fast Speech LLM Inference [19.201753265782685]
大規模言語モデル(LLM)は、音声コーデックを利用して音声をトークンに識別することで、かなり高度なオーディオ処理を行う。
既存のオーディオコーデックは高いフレームレートで動作し、特に自己回帰モデルにおいてトレーニングと推論が遅くなる。
我々は,12.5フレーム/秒(FPS)で高品質な圧縮を実現する,最先端オーディオであるNanoCodecを紹介する。
論文 参考訳(メタデータ) (2025-08-07T20:20:32Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-08T21:36:10Z) - MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation [19.998635838159217]
MagiCodecは、トランスフォーマーベースの新しいシングルレイヤー・ストリーミングオーディオである。
周波数領域におけるノイズ注入の効果を解析的に導出し,その有効性を示す。
MagiCodecは、再構築品質と下流タスクの両方において最先端のコーデックを上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:31:02Z) - FlowDec: A flow-based full-band general audio codec with high perceptual quality [90.05968801459524]
FlowDecは、48kHzでサンプリングされた一般的なオーディオのためのニューラルフルバンドオーディオコーデックである。
音声から一般的な音声へ一般化し、24kbit/sから4kbit/sまで移行する。
論文 参考訳(メタデータ) (2025-03-03T12:49:09Z) - FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。