論文の概要: The Equalizer: Introducing Shape-Gain Decomposition in Neural Audio Codecs
- arxiv url: http://arxiv.org/abs/2602.15491v1
- Date: Tue, 17 Feb 2026 10:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.038784
- Title: The Equalizer: Introducing Shape-Gain Decomposition in Neural Audio Codecs
- Title(参考訳): 等化器:ニューラルオーディオコーデックにおける形状ゲイン分解の導入
- Authors: Samir Sadok, Laurent Girin, Xavier Alameda-Pineda,
- Abstract要約: 我々はNACフレームワークに、古典的な音声/音声符号化で広く使われている形状のゲイン分解を導入することを提案する。
提案手法はNACエンコーダの前に入力信号を短時間でゲインと正規化形状ベクトルに分解する。
音声信号を用いた実験により, 任意のNACに容易に適用可能な汎用手法により, 抑止性能が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 20.468614667204093
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural audio codecs (NACs) typically encode the short-term energy (gain) and normalized structure (shape) of speech/audio signals jointly within the same latent space. As a result, they are poorly robust to a global variation of the input signal level in the sense that such variation has strong influence on the embedding vectors at the output of the encoder and their quantization. This methodology is inherently inefficient, leading to codebook redundancy and suboptimal bitrate-distortion performance. To address these limitations, we propose to introduce shape-gain decomposition, widely used in classical speech/audio coding, into the NAC framework. The principle of the proposed Equalizer methodology is to decompose the input signal -- before the NAC encoder -- into gain and normalized shape vector on a short-term basis. The shape vector is processed by the NAC, while the gain is quantized with scalar quantization and transmitted separately. The output (decoded) signal is reconstructed from the normalized output of the NAC and the quantized gain. Our experiments conducted on speech signals show that this general methodology, easily applicable to any NAC, enables a substantial gain in bitrate-distortion performance, as well as a massive reduction in complexity.
- Abstract(参考訳): ニューラルオーディオコーデック(NAC)は、通常、同じ潜在空間内で音声/音声信号の短期的なエネルギー(利得)と正規化された構造(形状)を符号化する。
その結果、エンコーダの出力と量子化における埋め込みベクトルに強い影響を与えるという意味では、入力信号レベルの大域的変動に対して、それらは不十分である。
この手法は本質的に非効率であり、コードブックの冗長性と最適ビットレート歪み性能をもたらす。
これらの制約に対処するため、NACフレームワークに古典的な音声/音声符号化で広く使われている形状のゲイン分解を導入することを提案する。
提案手法の原理は、NACエンコーダの前に入力信号を短期的にゲインおよび正規化形状ベクトルに分解することである。
形状ベクトルはNACによって処理され、ゲインはスカラー量子化されて量子化され、別々に送信される。
NACの正規化出力と量子化利得から出力(復号化)信号を再構成する。
音声信号を用いた実験により,任意のNACに容易に適用可能な一般的な手法により,ビットレート歪み性能が大幅に向上し,複雑度が大幅に低下することが示された。
関連論文リスト
- Generalization Bounds for Transformer Channel Decoders [61.55280736553095]
本稿では,ECCTの一般化性能を学習理論の観点から検討する。
我々の知る限りでは、この研究はこの種のデコーダに対する最初の理論的一般化保証を提供する。
論文 参考訳(メタデータ) (2026-01-11T15:56:37Z) - Adapting Neural Audio Codecs to EEG [27.20793132729464]
脳波圧縮の出発点として,事前学習したニューラルオーディオコーデックが有効であることを示す。
DAC-MCは、アテンションベースのチャネル間アグリゲーションとチャネル固有のデコードを備えたマルチチャネル拡張である。
TUH異常データセットとてんかんデータセットの評価は、適応コーデックが臨床関連情報を保存していることを示している。
論文 参考訳(メタデータ) (2025-11-28T12:47:05Z) - Fast correlated decoding of transversal logical algorithms [67.01652927671279]
大規模計算には量子エラー補正(QEC)が必要であるが、かなりのリソースオーバーヘッドが発生する。
近年の進歩により、論理ゲートからなるアルゴリズムにおいて論理キュービットを共同で復号化することにより、症候群抽出ラウンドの数を削減できることが示されている。
ここでは、回路を介して伝播する関連する論理演算子製品を直接復号することで、回路の復号化の問題を修正する。
論文 参考訳(メタデータ) (2025-05-19T18:00:00Z) - Variable Bitrate Residual Vector Quantization for Audio Coding [29.368893236587343]
最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている
これらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。
本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:18:24Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - A DNN Based Post-Filter to Enhance the Quality of Coded Speech in MDCT
Domain [16.70806998451696]
本稿では,MDCTドメインで直接動作するマスクベースのポストフィルタを提案する。
実数値マスクは量子化MDCT係数に適用され、比較的軽量な畳み込みエンコーダ・デコーダネットワークから推定される。
提案手法は,最近標準化された低遅延低複素度 (LC3) で16kbpsの最小係数で試される。
論文 参考訳(メタデータ) (2022-01-28T11:08:02Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。