論文の概要: One Quantizer is Enough: Toward a Lightweight Audio Codec
- arxiv url: http://arxiv.org/abs/2504.04949v1
- Date: Mon, 07 Apr 2025 11:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:00.447608
- Title: One Quantizer is Enough: Toward a Lightweight Audio Codec
- Title(参考訳): 軽量オーディオコーデックを目指す量子化器
- Authors: Linwei Zhai, Han Ding, Cui Zhao, fei wang, Ge Wang, Wang Zhi, Wei Xi,
- Abstract要約: SQCodecは、単一量子化器を利用して既存のアプローチの限界に対処する軽量なニューラルオーディオである。
SQCodecはTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを調査している。
実験により、SQCodecのオーディオ品質はマルチ量子化器に匹敵するベースラインを実現し、シングル量子化器の設計は適応性を向上した。
- 参考スコア(独自算出の注目度): 10.903708510237875
- License:
- Abstract: Neural audio codecs have recently gained traction for their ability to compress high-fidelity audio and generate discrete tokens that can be utilized in downstream generative modeling tasks. However, leading approaches often rely on resource-intensive models and multi-quantizer architectures, resulting in considerable computational overhead and constrained real-world applicability. In this paper, we present SQCodec, a lightweight neural audio codec that leverages a single quantizer to address these limitations. SQCodec explores streamlined convolutional networks and local Transformer modules, alongside TConv, a novel mechanism designed to capture acoustic variations across multiple temporal scales, thereby enhancing reconstruction fidelity while reducing model complexity. Extensive experiments across diverse datasets show that SQCodec achieves audio quality comparable to multi-quantizer baselines, while its single-quantizer design offers enhanced adaptability and its lightweight architecture reduces resource consumption by an order of magnitude. The source code is publicly available at https://github.com/zhai-lw/SQCodec.
- Abstract(参考訳): ニューラルオーディオコーデックは、最近、高忠実度オーディオを圧縮し、下流生成モデリングタスクで使用できる離散トークンを生成する能力で注目を集めている。
しかし、主要なアプローチはリソース集約モデルやマルチ量子化アーキテクチャに依存しており、計算オーバーヘッドがかなり高く、現実の応用性が制限されている。
本稿では、これらの制限に対処するために単一の量子化器を利用する軽量なニューラルオーディオコーデックであるSQCodecを提案する。
SQCodecは、複数の時間スケールにわたる音響的変動をキャプチャし、モデルの複雑さを低減しながら再構成の忠実性を向上させるように設計された新しいメカニズムであるTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを探索する。
多様なデータセットにわたる大規模な実験により、SQCodecはマルチ量子化器のベースラインに匹敵するオーディオ品質を達成し、一方シングル量子化器の設計は適応性を向上し、軽量なアーキテクチャはリソース消費を桁違いに削減する。
ソースコードはhttps://github.com/zhai-lw/SQCodec.comで公開されている。
関連論文リスト
- FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - Scaling Transformers for Low-Bitrate High-Quality Speech Coding [15.58137711465863]
最先端の音声品質を極端に低ビットレートで400ドルまたは700ドル/秒で達成可能であることを示す。
トレーニングされたモデルは、客観的テストと主観的テストの両方において、既存のベースラインを強く上回ります。
論文 参考訳(メタデータ) (2024-11-29T16:58:02Z) - SNAC: Multi-Scale Neural Audio Codec [1.0753191494611891]
マルチスケールニューラルオーディオコーデックはRVQの単純な拡張であり、量子化器は異なる時間分解能で動作することができる。
本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるマルチスケールニューラルオーディオコーデックを提案する。
論文 参考訳(メタデータ) (2024-10-18T12:24:05Z) - Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。
SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。
実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T14:21:02Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Gull: A Generative Multifunctional Audio Codec [39.414833825453655]
Gullは汎用的なニューラルオーディオ圧縮および圧縮モデルである。
鍵となるコンポーネントは、ユニバーサルサンプルレートモデリング、ゲインシェイプ表現、残留ベクトル量子化モジュール、弾性デコーダネットワークである。
論文 参考訳(メタデータ) (2024-04-07T12:57:46Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - A Quantum Kernel Learning Approach to Acoustic Modeling for Spoken
Command Recognition [69.97260364850001]
本稿では,量子カーネル学習(QKL)フレームワークを提案する。
古典的-量子的特徴符号化に基づく音響特性を計画する。
論文 参考訳(メタデータ) (2022-11-02T16:46:23Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。