論文の概要: Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec
- arxiv url: http://arxiv.org/abs/2603.05887v1
- Date: Fri, 06 Mar 2026 04:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.07367
- Title: Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec
- Title(参考訳): Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Losss for High- Intelligibility and Low-Latency Streaming Neural Audio Codec
- Authors: Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim Dehak,
- Abstract要約: メル-スペクトログラム再構成に最適化されたニューラルオーディオコーデックは、しばしばインテリジェンスを維持することができない。
本研究では,自己教師付き再建(SSRR)の喪失がトレーニングとパフォーマンスを根本的に改善することを示す。
我々のJHCodecは、最小のレイテンシとトレーニングコストの削減を維持しながら、最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 55.40419731151658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio codecs optimized for mel-spectrogram reconstruction often fail to preserve intelligibility. While semantic encoder distillation improves encoded representations, it does not guarantee content preservation in reconstructed speech. In this work, we demonstrate that self-supervised representation reconstruction (SSRR) loss fundamentally improves codec training and performance. First, SSRR significantly accelerates convergence, enabling competitive results using only a single GPU. Second, it enhances intelligibility by reconstructing distilled self-supervised representations from codec outputs. Third, SSRR enables high intelligibility without additional lookahead in streaming Transformer-based codecs, allowing a zero-lookahead architecture for real-time deployment. As a result, our JHCodec achieves state-of-the-art performance while maintaining minimal latency and reduced training cost. We open-source the full implementation, training pipeline, and demo on Github https://github.com/jhcodec843/jhcodec.
- Abstract(参考訳): メル-スペクトログラム再構成に最適化されたニューラルオーディオコーデックは、しばしばインテリジェンスを維持することができない。
セマンティックエンコーダ蒸留は符号化表現を改善するが、再構成音声におけるコンテンツ保存を保証しない。
本研究では,自己教師付き表現再構成(SSRR)の損失がコーデックトレーニングと性能を根本的に改善することを示す。
まず、SSRRはコンバージェンスを著しく加速し、単一のGPUで競合する結果が得られる。
第二に、コーデック出力から蒸留した自己教師付き表現を再構成することで、インテリジェンスを高める。
第3に、SSRRはストリーミングトランスフォーマーベースのコーデックにおいて、追加のルックアヘッドなしで高いインテリジェンスを可能にし、リアルタイムデプロイメントのためのゼロルックアヘッドアーキテクチャを実現する。
結果として、私たちのJHCodecは、最小のレイテンシとトレーニングコストの削減を維持しながら、最先端のパフォーマンスを実現しています。
Githubのhttps://github.com/jhcodec843/jhcodec.comで、完全な実装、トレーニングパイプライン、デモをオープンソースにしています。
関連論文リスト
- Improving Reconstruction of Representation Autoencoder [52.817427902597416]
低レベル情報を欠いた意味的特徴を増強する表現オートエンコーダLV-RAEを提案する。
実験により,LV-RAEは意味的抽象化を保ちながら,再構成の忠実度を著しく向上することが示された。
論文 参考訳(メタデータ) (2026-02-09T13:12:35Z) - FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation [27.32235541083431]
FocalCodec-Streamは、音声を1つのバイナリコードブックに0.55から0.80kbpsで圧縮し、理論的な遅延は80msである。
実験によると、FocalCodec-Streamは既存のストリーム可能なコーデックを同等の性能で上回っている。
論文 参考訳(メタデータ) (2025-09-19T17:57:13Z) - SIEDD: Shared-Implicit Encoder with Discrete Decoders [36.705337163276255]
Inlicit Neural Representations (INR)は、ビデオごとの最適化機能を学ぶことによって、ビデオ圧縮に例外的な忠実度を提供する。
既存のINRエンコーディングの高速化の試みは、しばしば再建品質や重要な座標レベルの制御を犠牲にしている。
これらの妥協なしにINRエンコーディングを根本的に高速化する新しいアーキテクチャであるSIEDDを紹介する。
論文 参考訳(メタデータ) (2025-06-29T19:39:43Z) - MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation [19.998635838159217]
MagiCodecは、トランスフォーマーベースの新しいシングルレイヤー・ストリーミングオーディオである。
周波数領域におけるノイズ注入の効果を解析的に導出し,その有効性を示す。
MagiCodecは、再構築品質と下流タスクの両方において最先端のコーデックを上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:31:02Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - An Efficient Implicit Neural Representation Image Codec Based on Mixed Autoregressive Model for Low-Complexity Decoding [43.43996899487615]
画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。
我々は、現在のINRの復号時間を大幅に削減するために、新しいMixed AutoRegressive Model (MARM)を導入する。
MARMには提案したAutoRegressive Upsampler(ARU)ブロックが含まれている。
論文 参考訳(メタデータ) (2024-01-23T09:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。