論文の概要: F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation
- arxiv url: http://arxiv.org/abs/2606.06357v1
- Date: Thu, 04 Jun 2026 16:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.956139
- Title: F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation
- Title(参考訳): F3-Tokenizer:理解と生成のためのオーディオオートエンコーダラテラントのモデリング
- Authors: Dinghao Zhou, Xingchen Song, Di Wu, Pengyu Cheng, Shengfan Shen, Sixiang Lv,
- Abstract要約: 連続的なオーディオオートエンコーダは理解のための弱い構造を持つ潜伏語を生成するが、自己教師型オーディオエンコーダは意味をキャプチャするが、直接デオードできない。
我々は、ノイズ正規化オートエンコーダボトルネックと潜在側表現エンコーダという2つのコンポーネントで、連続オートエンコーダのラテントをこの設定に適応させる。
表現エンコーダは、RQ-MTPと凍結LLMの監督により、冷凍オートエンコーダラプタントで訓練される。
- 参考スコア(独自算出の注目度): 9.176695641173655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous audio autoencoders reconstruct waveforms well but often produce latents with weak structure for understanding, while self-supervised audio encoders capture semantics but are not directly decodable. This mismatch complicates a single audio tokenizer that must support both understanding and generation. We adapt continuous autoencoder latents to this setting with two components: a noise-regularized autoencoder bottleneck and a latent-side representation encoder. The bottleneck uses channel normalization and stochastic perturbation instead of KL-based variational training, yielding scale-controlled continuous latents for reconstruction and autoregressive generation. The representation encoder is trained on frozen autoencoder latents with RQ-MTP and frozen-LLM supervision. The resulting tokenizer provides high-dimensional representations for understanding while preserving normalized continuous latents as generation targets
- Abstract(参考訳): 連続的なオーディオオートエンコーダは波形をよく再構築するが、理解のために弱い構造を持つ潜伏語を生成することが多い。
このミスマッチは、理解と生成の両方をサポートしなければならない単一のオーディオトークンを複雑にする。
我々は、ノイズ正規化オートエンコーダボトルネックと潜在側表現エンコーダという2つのコンポーネントで、連続オートエンコーダのラテントをこの設定に適応させる。
このボトルネックはKLベースの変分訓練の代わりにチャネルの正規化と確率的摂動を用いており、再建と自己回帰生成のためにスケール制御された連続潜伏剤を生じる。
表現エンコーダは、RQ-MTPと凍結LLMの監督により、冷凍オートエンコーダラプタントで訓練される。
結果のトークン化器は、正規化された連続潜伏剤を生成ターゲットとして保存しながら、理解のための高次元表現を提供する
関連論文リスト
- DeCoDrift: Stabilizing Decoder Coupling in Closed-Loop Foundation Segmentation [0.431493144418712]
フィードバックループは、マスクデコーダのクロスアテンションがターゲットオブジェクトとのアライメントを徐々に失い、繰り返しにわたってエラーが蓄積されるような、以前見過ごされた障害モード、デコーダ結合ドリフトを誘導できることを示す。
DeCoDriftは、トレーニング不要な推論時間安定化フレームワークで、更新の速やかな制限とイテレーション間のデコーダ結合の保存を行う。
論文 参考訳(メタデータ) (2026-05-25T11:41:21Z) - Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。
私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。
我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文 参考訳(メタデータ) (2026-03-05T15:51:09Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Toward Diffusible High-Dimensional Latent Spaces: A Frequency Perspective [73.86108756585857]
我々は、エンコーダ/デコーダの動作を分析し、デコーダが詳細を回復するために高周波遅延成分に強く依存していることを確認する。
本稿ではFreqWarmについて紹介する。FreqWarmはプラグアンドプレイの周波数ウォームアップカリキュラムで、高周波潜時信号の早期露出を増大させる。
論文 参考訳(メタデータ) (2025-11-27T09:20:36Z) - CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio [7.093237513313511]
CoDiCodecは、要約埋め込みを通じてグローバル機能を効率的に符号化することで、制限を克服する新しいオーディオオートエンコーダである。
11Hzで圧縮された連続埋め込みと、同じ訓練されたモデルから2.38kbpsの速度で離散トークンを生成する。
我々の研究は、連続的な生成的モデリングパラダイムと離散的なモデリングパラダイムのギャップを埋め、オーディオ圧縮に対する統一的なアプローチを可能にする。
論文 参考訳(メタデータ) (2025-09-11T20:31:18Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement [1.4037575966075835]
生のオーディオの1Dフィルターは訓練が困難で、しばしば不安定に悩まされる。
これらの問題は、理論駆動とデータ駆動のアプローチを組み合わせたハイブリッドソリューションによって解決される。
論文 参考訳(メタデータ) (2024-08-30T15:49:31Z) - Music2Latent: Consistency Autoencoders for Latent Audio Compression [0.0]
一貫性モデルを活用することで制限を克服するオーディオオートエンコーダであるMusic2Latentを紹介する。
Music2Latentは、単一エンドツーエンドのトレーニングプロセスにおいて、サンプルを圧縮された連続潜伏空間にエンコードする。
Music2Latentは、音質と再現精度において、既存の連続オーディオオートエンコーダよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-12T21:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。