論文の概要: Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio
- arxiv url: http://arxiv.org/abs/2603.08683v1
- Date: Mon, 09 Mar 2026 17:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.690823
- Title: Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio
- Title(参考訳): 完全忠実度音声の無声圧縮のためのベンチマーク言語モデリング
- Authors: Phillip Long, Zachary Novack, Chris Donahue,
- Abstract要約: 我々は、様々な領域にわたるフル忠実度音声に対するLMベースの圧縮をベンチマークする。
フル解像度オーディオのためのバイトレベルのトークン化スキーマであるTrilobyteを提案する。
ビット深度が8ビットを超えると圧縮ゲインがより緩やかになるのが観察できる。
- 参考スコア(独自算出の注目度): 10.47114305738461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive "language" models (LMs) trained on raw waveforms can be repurposed for lossless audio compression, but prior work is limited to 8-bit audio, leaving open whether such approaches work for practical settings (16/24-bit) and can compete with existing codecs. We benchmark LM-based compression on full-fidelity audio across diverse domains (music, speech, bioacoustics), sampling rates (16kHz-48kHz), and bit depths (8, 16, 24-bit). Standard sample-level tokenization becomes intractable at higher bit depths due to vocabulary size (65K for 16-bit; 16.7M for 24-bit). We propose Trilobyte, a byte-level tokenization schema for full resolution audio, improving vocabulary scaling from $O(2^{b})$ to $O(1)$ and enabling the first tractable 24-bit LM-based lossless compression. While LMs consistently outperform FLAC and yield state-of-the-art compression at 8-bit and 16-bit, we observe that compression gains become more modest as bit depth increases beyond 8-bit.
- Abstract(参考訳): 生の波形で訓練された自己回帰的"言語"モデル(LM)は、損失のないオーディオ圧縮のために再利用できるが、以前の作業は8ビットのオーディオに限られており、そのようなアプローチが実用的な設定(16/24ビット)で機能し、既存のコーデックと競合するかどうかは未解決のままである。
音, 音声, 生体音響) , サンプリングレート(16kHz-48kHz) , ビット深さ(8, 16, 24-bit) にまたがるフルフィルダリティオーディオのLM圧縮をベンチマークした。
標準のサンプルレベルのトークン化は、語彙サイズ(16ビットは65K、24ビットは16.7M)により、より高いビット深さで難解になる。
我々は,全解像度オーディオのためのバイトレベルのトークン化スキーマであるTrilobyteを提案し,語彙スケーリングを$O(2^{b})$から$O(1)$に改善し,最初の24ビットLMベースのロスレス圧縮を実現する。
LMはFLACを一貫して上回り、8ビットと16ビットでは最先端の圧縮が得られるが、ビット深度が8ビットを超えると圧縮がより緩やかになる。
関連論文リスト
- Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding [0.0]
本研究では,自然言語テキストにおいて評価されたシステム間で最高の圧縮結果を得る圧縮システムであるNacrithについて述べる。
このシステムは500MBのGGUF重量と1ワーカーあたり1.2GBのVRAMしか必要としない。
Alice29 (Canterbury Corpus, 152 KB) では、Nacrith は 0th-, 1st-, 2nd-order Shannon entropy 境界以下で 0.918bits per byte (bpb) を達成する。
論文 参考訳(メタデータ) (2026-02-23T09:14:05Z) - CMC-Bench: Towards a New Paradigm of Visual Signal Compression [85.1839779884282]
本稿では,画像圧縮のための画像間テキスト(I2T)モデルとテキスト間画像(T2I)モデルの協調性能のベンチマークであるCMC-Benchを紹介する。
超低速では、いくつかのI2TモデルとT2Iモデルの組み合わせが、最も先進的な視覚信号プロトコルを超えたことが証明されている。
論文 参考訳(メタデータ) (2024-06-13T17:41:37Z) - High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文 参考訳(メタデータ) (2023-06-11T00:13:00Z) - RedApt: An Adaptor for wav2vec 2 Encoding \\ Faster and Smaller Speech
Translation without Quality Compromise [66.92823764664206]
我々は,任意のトランスフォーマーベース音声符号化アーキテクチャにシームレスに統合可能な,新しいReduceer AdaptorブロックRedAptを提案する。
事前訓練されたwav2vec 2音声エンコーダをRedAptbrings 41%の高速化、33%のメモリ削減、24%のFLOPを推論で削減した。
論文 参考訳(メタデータ) (2022-10-16T07:58:25Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。