論文の概要: VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression
- arxiv url: http://arxiv.org/abs/2410.06016v2
- Date: Sat, 12 Oct 2024 16:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:40:34.075465
- Title: VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression
- Title(参考訳): VRVQ:オーディオ圧縮のための可変ビットレート残差ベクトル量子化
- Authors: Yunkee Chae, Woosung Choi, Yuhta Takida, Junghyun Koo, Yukara Ikemiya, Zhi Zhong, Kin Wai Cheuk, Marco A. Martínez-Ramírez, Kyogu Lee, Wei-Hsiang Liao, Yuki Mitsufuji,
- Abstract要約: 最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている
これらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。
本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
- 参考スコア(独自算出の注目度): 29.368893236587343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent state-of-the-art neural audio compression models have progressively adopted residual vector quantization (RVQ). Despite this success, these models employ a fixed number of codebooks per frame, which can be suboptimal in terms of rate-distortion tradeoff, particularly in scenarios with simple input audio, such as silence. To address this limitation, we propose variable bitrate RVQ (VRVQ) for audio codecs, which allows for more efficient coding by adapting the number of codebooks used per frame. Furthermore, we propose a gradient estimation method for the non-differentiable masking operation that transforms from the importance map to the binary importance mask, improving model training via a straight-through estimator. We demonstrate that the proposed training framework achieves superior results compared to the baseline method and shows further improvement when applied to the current state-of-the-art codec.
- Abstract(参考訳): 最近の最先端のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている。
この成功にもかかわらず、これらのモデルはフレームごとに一定数のコードブックを使用し、特にサイレントのような単純な入力オーディオのシナリオにおいて、レート歪みのトレードオフの点では最適である。
この制限に対処するため,オーディオコーデックの可変ビットレートRVQ(VRVQ)を提案する。
さらに、重要度マップから二項重要度マスクへ変換する非微分不可能マスキング動作の勾配推定法を提案し、ストレートスルー推定器によるモデルトレーニングを改善する。
提案するトレーニングフレームワークは,ベースライン法と比較して優れた結果が得られ,現在の最先端コーデックに適用した場合にさらなる改善が期待できることを示す。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Differentiable bit-rate estimation for neural-based video codec
enhancement [2.592974861902384]
ニューラルネットワーク(NN)は、符号化されたビデオの前処理と後処理によって、標準的なビデオ圧縮を改善することができる。
NNトレーニングを最適にするためには、標準的なプロキシを、推定ビットレートと歪みのデリバティブを提供するプロキシに置き換える必要がある。
本稿では、エンド・ツー・エンドのニューラルコーデックのトレーニングで使用されるタイプに類似したビットレート推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-24T01:36:07Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Flexible Neural Image Compression via Code Editing [8.499248314440557]
ニューラル画像圧縮(NIC)は、レート歪み(R-D)性能において従来の画像コーデックよりも優れていた。
通常、R-D曲線の各点に専用エンコーダとデコーダのペアが必要であるため、実際の展開を妨げている。
本稿では,セミアモタイズされた推論と適応量子化に基づくNICの高フレキシブルな符号化手法であるCode Editingを提案する。
論文 参考訳(メタデータ) (2022-09-19T09:41:43Z) - Learning Representations for CSI Adaptive Quantization and Feedback [51.14360605938647]
本稿では,周波数分割二重化システムにおける適応量子化とフィードバックの効率的な手法を提案する。
既存の研究は主に、CSI圧縮のためのオートエンコーダ(AE)ニューラルネットワークの実装に焦点を当てている。
1つはポストトレーニング量子化に基づくもので、もう1つはAEのトレーニング中にコードブックが見つかる方法である。
論文 参考訳(メタデータ) (2022-07-13T08:52:13Z) - Cross-Scale Vector Quantization for Scalable Neural Speech Coding [22.65761249591267]
ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。
本稿では,クロススケールな拡張型ベクトル量子化スキーム(CSVQ)を提案する。
このように、ビットストリームの一部しか受信していない場合、粗いレベル信号が再構成され、より多くのビットが利用可能になるにつれて、徐々に品質が向上する。
論文 参考訳(メタデータ) (2022-07-07T03:23:25Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Progressive Neural Image Compression with Nested Quantization and Latent
Ordering [16.871212593949487]
本稿では,1ビットストリームでスケーラブルな符号化を可能にすることにより,可変圧縮の境界を押し上げるプログレッシブ・ニューラルイメージ圧縮方式であるPLONQを提案する。
我々の知る限り、PLONQは学習ベースのプログレッシブ画像符号化方式であり、よく知られたウェーブレットベースのプログレッシブ画像であるSPIHTより優れている。
論文 参考訳(メタデータ) (2021-02-04T22:06:13Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - Simple and Effective VAE Training with Calibrated Decoders [123.08908889310258]
変分オートエンコーダ(VAE)は、複雑な分布をモデル化するための効果的で簡単な方法である。
復号分布の不確かさを学習する校正復号器の影響について検討する。
本稿では,一般的なガウス復号器の簡易かつ斬新な修正を提案し,その予測分散を解析的に計算する。
論文 参考訳(メタデータ) (2020-06-23T17:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。