論文の概要: VAEVQ: Enhancing Discrete Visual Tokenization through Variational Modeling
- arxiv url: http://arxiv.org/abs/2511.06863v1
- Date: Mon, 10 Nov 2025 09:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.177426
- Title: VAEVQ: Enhancing Discrete Visual Tokenization through Variational Modeling
- Title(参考訳): VAEVQ: 変分モデリングによる離散的視覚化の促進
- Authors: Sicheng Yang, Xing Hu, Qiang Wu, Dawei Yang,
- Abstract要約: VAEVQは,(1)変分潜時量子化(VLQ),AEを量子化用VOEに置き換えて構造的かつスムーズな潜時空間を活用し,より効率的なコーデックアクティベーションを促進する,(2)表現コヒーレンス戦略(RCS),(2)先行および後列化特徴間のアライメント強度を適応的に調整して整合性を高め,ノイズへの過度適合を防止する,(3)分布整合性正規化(DCR),といった3つの重要なコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 22.005420177236804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector quantization (VQ) transforms continuous image features into discrete representations, providing compressed, tokenized inputs for generative models. However, VQ-based frameworks suffer from several issues, such as non-smooth latent spaces, weak alignment between representations before and after quantization, and poor coherence between the continuous and discrete domains. These issues lead to unstable codeword learning and underutilized codebooks, ultimately degrading the performance of both reconstruction and downstream generation tasks. To this end, we propose VAEVQ, which comprises three key components: (1) Variational Latent Quantization (VLQ), replacing the AE with a VAE for quantization to leverage its structured and smooth latent space, thereby facilitating more effective codeword activation; (2) Representation Coherence Strategy (RCS), adaptively modulating the alignment strength between pre- and post-quantization features to enhance consistency and prevent overfitting to noise; and (3) Distribution Consistency Regularization (DCR), aligning the entire codebook distribution with the continuous latent distribution to improve utilization. Extensive experiments on two benchmark datasets demonstrate that VAEVQ outperforms state-of-the-art methods.
- Abstract(参考訳): ベクトル量子化(VQ)は連続した画像の特徴を離散表現に変換し、生成モデルに対して圧縮されたトークン化された入力を提供する。
しかしながら、VQベースのフレームワークは、非滑らかな潜在空間、量子化前後の表現間の弱いアライメント、連続的および離散的ドメイン間のコヒーレンスなど、いくつかの問題に悩まされている。
これらの問題は不安定なコードワード学習と未使用のコードブックにつながり、最終的に再構築タスクと下流生成タスクの両方のパフォーマンスを低下させる。
本稿では,(1)変分潜時量子化(VLQ),(1)AEを量子化のためのVAEに置き換えてその構造的かつスムーズな潜時空間を活用することにより,より効率的なコーデックアクティベーションを実現すること,(2)表現コヒーレンス戦略(RCS)を適応的に調整し,整合性を高め,ノイズへの過度な適合を防止すること,(3)分布整合性正規化(DCR)という3つの重要なコンポーネントからなるVAEVQを提案する。
2つのベンチマークデータセットに対する大規模な実験は、VAEVQが最先端の手法より優れていることを示している。
関連論文リスト
- VP-VAE: Rethinking Vector Quantization via Adaptive Vector Perturbation [16.334397444253266]
ベクトル量子変分オートエンコーダ(VQ-VAE)は現代の生成モデルの基礎であるが、しばしばトレーニング不安定性と「コードブック崩壊」に悩まされる。
本稿では,学習中に明示的なコードブックを不要にすることで,表現学習を識別から切り離す新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-19T07:12:43Z) - Generalized Radius and Integrated Codebook Transforms for Differentiable Vector Quantization [11.898954874548073]
我々は、VQを完全に差別化しつつ、前方パスにハードアサインを保持する統一的なサロゲートフレームワークを導入する。
GRIT-VQは、既存のVQの変種と比較して、復元誤差、生成品質、精度を一貫して改善する。
論文 参考訳(メタデータ) (2026-02-01T10:22:35Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。
CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。
拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文 参考訳(メタデータ) (2025-11-26T09:49:48Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior [5.862123282894087]
ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入する。
VQ-VAEは、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。
GM-VQは,手工芸品に頼らずに,コードブックの利用率を向上し,情報損失を低減する。
論文 参考訳(メタデータ) (2024-10-14T05:58:11Z) - Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes [36.12653178844828]
トラジェクトリ予測は、一連のエージェントの将来の動きを予測できるため、ビデオ監視分析に不可欠である。
本稿では,離散潜在空間を用いたベクトル量子変分オートエンコーダ(VQ-VAEs)を導入し,後方崩壊問題に対処する。
このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測につながることを示す。
論文 参考訳(メタデータ) (2024-05-31T10:13:17Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。
本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。
本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。