論文の概要: Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders
- arxiv url: http://arxiv.org/abs/2507.07867v1
- Date: Thu, 10 Jul 2025 15:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.471142
- Title: Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders
- Title(参考訳): Re-Bottleneck: ニューラルオーディオオートエンコーダの潜時再構造化
- Authors: Dimitrios Bralios, Jonah Casebeer, Paris Smaragdis,
- Abstract要約: 本稿では,事前学習したオートエンコーダのボトルネックを修正するための,シンプルなポストホックフレームワークを提案する。
提案手法では,ユーザ定義構造を組み込むために,遅延空間損失を専門にトレーニングした内部ボトルネックである"Re-Bottleneck"を導入する。
最終的に、我々のRe-Bottleneckフレームワークは、ニューラルオーディオモデルの表現をカスタマイズするための柔軟で効率的な方法を提供する。
- 参考スコア(独自算出の注目度): 13.82572699087732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio codecs and autoencoders have emerged as versatile models for audio compression, transmission, feature-extraction, and latent-space generation. However, a key limitation is that most are trained to maximize reconstruction fidelity, often neglecting the specific latent structure necessary for optimal performance in diverse downstream applications. We propose a simple, post-hoc framework to address this by modifying the bottleneck of a pre-trained autoencoder. Our method introduces a "Re-Bottleneck", an inner bottleneck trained exclusively through latent space losses to instill user-defined structure. We demonstrate the framework's effectiveness in three experiments. First, we enforce an ordering on latent channels without sacrificing reconstruction quality. Second, we align latents with semantic embeddings, analyzing the impact on downstream diffusion modeling. Third, we introduce equivariance, ensuring that a filtering operation on the input waveform directly corresponds to a specific transformation in the latent space. Ultimately, our Re-Bottleneck framework offers a flexible and efficient way to tailor representations of neural audio models, enabling them to seamlessly meet the varied demands of different applications with minimal additional training.
- Abstract(参考訳): ニューラルオーディオコーデックとオートエンコーダは、オーディオ圧縮、伝送、特徴抽出、潜在空間生成のための汎用モデルとして登場した。
しかし、鍵となる制限は、ほとんどが再構築忠実度を最大化するために訓練されており、様々な下流アプリケーションにおいて最適な性能に必要な特定の潜伏構造を無視することが多いことである。
本稿では,事前学習したオートエンコーダのボトルネックを修正することで,この問題に対処するシンプルなポストホックフレームワークを提案する。
提案手法では,ユーザ定義構造を組み込むために,遅延空間損失を専門にトレーニングした内部ボトルネックである"Re-Bottleneck"を導入する。
フレームワークの有効性を3つの実験で実証する。
まず,再建品質を犠牲にすることなく,遅延チャネルの順序付けを行う。
第二に、潜伏剤をセマンティック埋め込みと整列させ、下流拡散モデルへの影響を解析する。
第3に、入力波形上のフィルタリング操作が潜時空間の特定の変換と直接対応することを保証する等分散を導入する。
最終的に、我々のRe-Bottleneckフレームワークは、ニューラルオーディオモデルの表現を柔軟かつ効率的に調整する方法を提供する。
関連論文リスト
- Lipschitz-Driven Noise Robustness in VQ-AE for High-Frequency Texture Repair in ID-Specific Talking Heads [19.408923392360602]
アイデンティティ固有のトーキングヘッドジェネレーションは、映画製作やバーチャルリアリティーにおける応用への期待が高まっている。
理論的な洞察によって導かれる、シンプルで効率的な後処理フレームワークを採用しています。
実験により, このパイプラインは, 既存のアイデンティティ固有THG法を超越して, 分布外リップ同期の堅牢性を実現することを示した。
論文 参考訳(メタデータ) (2024-10-01T18:32:02Z) - Neural NeRF Compression [19.853882143024]
最近のNeRFは、レンダリング品質とスピードを改善するために機能グリッドを利用している。
これらの表現は、大きなストレージオーバーヘッドをもたらす。
本稿では,グリッドベースNeRFモデルを効率よく圧縮する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:12:26Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。