論文の概要: L3AC: Towards a Lightweight and Lossless Audio Codec
- arxiv url: http://arxiv.org/abs/2504.04949v2
- Date: Fri, 15 Aug 2025 12:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.246101
- Title: L3AC: Towards a Lightweight and Lossless Audio Codec
- Title(参考訳): L3AC:軽量でロスレスなオーディオコーデックを目指す
- Authors: Linwei Zhai, Han Ding, Cui Zhao, fei wang, Ge Wang, Wang Zhi, Wei Xi,
- Abstract要約: 我々は、単一量子化器と高効率アーキテクチャを活用することで課題に対処する軽量なニューラルオーディオであるL3ACを紹介する。
L3ACは、複数の時間スケールにわたる音響変化を捉えるように設計された新しい構造であるTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを探索する。
- 参考スコア(独自算出の注目度): 10.903708510237875
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural audio codecs have recently gained traction for their ability to compress high-fidelity audio and provide discrete tokens for generative modeling. However, leading approaches often rely on resource-intensive models and complex multi-quantizer architectures, limiting their practicality in real-world applications. In this work, we introduce L3AC, a lightweight neural audio codec that addresses these challenges by leveraging a single quantizer and a highly efficient architecture. To enhance reconstruction fidelity while minimizing model complexity, L3AC explores streamlined convolutional networks and local Transformer modules, alongside TConv--a novel structure designed to capture acoustic variations across multiple temporal scales. Despite its compact design, extensive experiments across diverse datasets demonstrate that L3AC matches or exceeds the reconstruction quality of leading codecs while reducing computational overhead by an order of magnitude. The single-quantizer design further enhances its adaptability for downstream tasks. The source code is publicly available at https://github.com/zhai-lw/L3AC.
- Abstract(参考訳): ニューラルオーディオコーデックは、高忠実度オーディオを圧縮し、生成モデリングのための離散トークンを提供する能力によって、最近注目を集めている。
しかし、先導的なアプローチはリソース集約モデルや複雑なマルチ量子化アーキテクチャに依存し、現実のアプリケーションにおける実用性を制限していることが多い。
本研究では、単一量子化器と高効率アーキテクチャを活用することにより、これらの課題に対処する軽量なニューラルオーディオコーデックであるL3ACを紹介する。
モデル複雑性を最小化しながら再構成の忠実性を向上させるため、L3ACは、複数の時間スケールにわたる音響的変動を捉えるように設計された新しい構造であるTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを探索した。
コンパクトな設計にもかかわらず、様々なデータセットにわたる広範な実験により、L3ACはリードコーデックの再構成品質と一致し、計算オーバーヘッドを桁違いに低減することを示した。
単一量子化器の設計により、下流タスクへの適応性がさらに向上する。
ソースコードはhttps://github.com/zhai-lw/L3ACで公開されている。
関連論文リスト
- SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - Next Tokens Denoising for Speech Synthesis [51.320443764269726]
Dragon-FMは、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計である。
毎秒12.5トークンのコンパクトレートで48kHzのオーディオトークンをチャンクで処理する。
ポッドキャストデータセットの実験では、高品質なゼロショットポッドキャストを効率的に生成できることが示されている。
論文 参考訳(メタデータ) (2025-07-30T15:03:36Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine [16.046905753937384]
本研究では、すでに訓練済みの音声/オーディオ下流モデルの任意の中間特徴表現を圧縮・定量化できる効率的なACoM法を提案する。
提案手法では,残差ベクトル量子化(RVQ)損失とともにタスク固有の損失ガイダンスを採用し,ダウンストリームモデルの性能を最小限に抑えた超低コーデック(200bps未満)を提供する。
論文 参考訳(メタデータ) (2025-07-17T00:32:07Z) - MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation [19.998635838159217]
MagiCodecは、トランスフォーマーベースの新しいシングルレイヤー・ストリーミングオーディオである。
周波数領域におけるノイズ注入の効果を解析的に導出し,その有効性を示す。
MagiCodecは、再構築品質と下流タスクの両方において最先端のコーデックを上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:31:02Z) - FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - Scaling Transformers for Low-Bitrate High-Quality Speech Coding [15.58137711465863]
最先端の音声品質を極端に低ビットレートで400ドルまたは700ドル/秒で達成可能であることを示す。
トレーニングされたモデルは、客観的テストと主観的テストの両方において、既存のベースラインを強く上回ります。
論文 参考訳(メタデータ) (2024-11-29T16:58:02Z) - SNAC: Multi-Scale Neural Audio Codec [1.0753191494611891]
マルチスケールニューラルオーディオコーデックはRVQの単純な拡張であり、量子化器は異なる時間分解能で動作することができる。
本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるマルチスケールニューラルオーディオコーデックを提案する。
論文 参考訳(メタデータ) (2024-10-18T12:24:05Z) - Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。
SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。
実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T14:21:02Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Gull: A Generative Multifunctional Audio Codec [39.414833825453655]
Gullは汎用的なニューラルオーディオ圧縮および圧縮モデルである。
鍵となるコンポーネントは、ユニバーサルサンプルレートモデリング、ゲインシェイプ表現、残留ベクトル量子化モジュール、弾性デコーダネットワークである。
論文 参考訳(メタデータ) (2024-04-07T12:57:46Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - A Quantum Kernel Learning Approach to Acoustic Modeling for Spoken
Command Recognition [69.97260364850001]
本稿では,量子カーネル学習(QKL)フレームワークを提案する。
古典的-量子的特徴符号化に基づく音響特性を計画する。
論文 参考訳(メタデータ) (2022-11-02T16:46:23Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。