論文の概要: Taming Audio VAEs via Target-KL Regularization
- arxiv url: http://arxiv.org/abs/2605.17085v1
- Date: Sat, 16 May 2026 17:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.600205
- Title: Taming Audio VAEs via Target-KL Regularization
- Title(参考訳): ターゲット-KL正規化によるオーディオVAEの処理
- Authors: Prem Seetharaman, Rithesh Kumar,
- Abstract要約: テキスト-音声合成におけるターゲット-KL正規化の影響について検討する。
最適生成条件を特定する上で,圧縮率のスイーシングが有効であることがわかった。
- 参考スコア(独自算出の注目度): 6.889976738085788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent diffusion models have emerged as the dominant paradigm for many generation tasks including audio generation such as text-to-audio, text-to-music and text-to-speech. A key component of latent diffusion is an autoencoder (VAE) that compresses high-dimensional signals into a low frame rate continuous representation that is conducive for downstream prediction. Regularizing these VAEs is challenging, as there is a trade-off between over-regularized (poor output quality) and under-regularized (difficult to predict) latent representations. We propose a framework for studying this trade-off through compression and train Audio VAEs at specific bitrates via target-KL regularization. This allows direct comparison to well-studied discrete neural audio codec models, and the construction of rate-distortion curves for audio VAEs. We evaluate the impact of target-KL regularization on text-to-sound generation and find that sweeping compression rates is helpful in identifying the optimal generation setting.
- Abstract(参考訳): 遅延拡散モデルは、テキスト・トゥ・オーディオ、テキスト・トゥ・ミュージック、テキスト・トゥ・音声などの音声生成を含む多くの世代のタスクにおいて支配的なパラダイムとして現れてきた。
遅延拡散の重要な要素は、下流予測のために誘導される低フレームレート連続表現に高次元信号を圧縮するオートエンコーダ(VAE)である。
過正規化(出力品質の低さ)と過正規化(予測の困難さ)のトレードオフがあるため、これらのVAEの正規化は難しい。
圧縮によりこのトレードオフを研究するためのフレームワークを提案し、ターゲット-KL正規化により特定のビットレートでオーディオVAEを訓練する。
これにより、よく研究された離散ニューラルオーディオコーデックモデルと直接比較することができ、オーディオVAEに対するレート歪み曲線の構築が可能になる。
我々は,目標KL正規化がテキスト・音声生成に与える影響を評価し,最適生成条件の特定に有効であることを示す。
関連論文リスト
- Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models [56.91801348360746]
大規模な音声言語モデル(LALM)は、音声、音声、音楽にまたがって一般化される。
統一デコーダは 時空間のスムーズなバイアスを示します
LALMの学習自由復号法であるemphTemporal Contrastive Decoding (TCD)を提案する。
論文 参考訳(メタデータ) (2026-04-16T02:30:41Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。
我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。
実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文 参考訳(メタデータ) (2023-06-02T10:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。