論文の概要: VAEVQ: Enhancing Discrete Visual Tokenization through Variational Modeling
- arxiv url: http://arxiv.org/abs/2511.06863v1
- Date: Mon, 10 Nov 2025 09:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.177426
- Title: VAEVQ: Enhancing Discrete Visual Tokenization through Variational Modeling
- Title(参考訳): VAEVQ: 変分モデリングによる離散的視覚化の促進
- Authors: Sicheng Yang, Xing Hu, Qiang Wu, Dawei Yang,
- Abstract要約: VAEVQは,(1)変分潜時量子化(VLQ),AEを量子化用VOEに置き換えて構造的かつスムーズな潜時空間を活用し,より効率的なコーデックアクティベーションを促進する,(2)表現コヒーレンス戦略(RCS),(2)先行および後列化特徴間のアライメント強度を適応的に調整して整合性を高め,ノイズへの過度適合を防止する,(3)分布整合性正規化(DCR),といった3つの重要なコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 22.005420177236804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector quantization (VQ) transforms continuous image features into discrete representations, providing compressed, tokenized inputs for generative models. However, VQ-based frameworks suffer from several issues, such as non-smooth latent spaces, weak alignment between representations before and after quantization, and poor coherence between the continuous and discrete domains. These issues lead to unstable codeword learning and underutilized codebooks, ultimately degrading the performance of both reconstruction and downstream generation tasks. To this end, we propose VAEVQ, which comprises three key components: (1) Variational Latent Quantization (VLQ), replacing the AE with a VAE for quantization to leverage its structured and smooth latent space, thereby facilitating more effective codeword activation; (2) Representation Coherence Strategy (RCS), adaptively modulating the alignment strength between pre- and post-quantization features to enhance consistency and prevent overfitting to noise; and (3) Distribution Consistency Regularization (DCR), aligning the entire codebook distribution with the continuous latent distribution to improve utilization. Extensive experiments on two benchmark datasets demonstrate that VAEVQ outperforms state-of-the-art methods.
- Abstract(参考訳): ベクトル量子化(VQ)は連続した画像の特徴を離散表現に変換し、生成モデルに対して圧縮されたトークン化された入力を提供する。
しかしながら、VQベースのフレームワークは、非滑らかな潜在空間、量子化前後の表現間の弱いアライメント、連続的および離散的ドメイン間のコヒーレンスなど、いくつかの問題に悩まされている。
これらの問題は不安定なコードワード学習と未使用のコードブックにつながり、最終的に再構築タスクと下流生成タスクの両方のパフォーマンスを低下させる。
本稿では,(1)変分潜時量子化(VLQ),(1)AEを量子化のためのVAEに置き換えてその構造的かつスムーズな潜時空間を活用することにより,より効率的なコーデックアクティベーションを実現すること,(2)表現コヒーレンス戦略(RCS)を適応的に調整し,整合性を高め,ノイズへの過度な適合を防止すること,(3)分布整合性正規化(DCR)という3つの重要なコンポーネントからなるVAEVQを提案する。
2つのベンチマークデータセットに対する大規模な実験は、VAEVQが最先端の手法より優れていることを示している。
関連論文リスト
- Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior [5.862123282894087]
ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入する。
VQ-VAEは、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。
GM-VQは,手工芸品に頼らずに,コードブックの利用率を向上し,情報損失を低減する。
論文 参考訳(メタデータ) (2024-10-14T05:58:11Z) - Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes [36.12653178844828]
トラジェクトリ予測は、一連のエージェントの将来の動きを予測できるため、ビデオ監視分析に不可欠である。
本稿では,離散潜在空間を用いたベクトル量子変分オートエンコーダ(VQ-VAEs)を導入し,後方崩壊問題に対処する。
このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測につながることを示す。
論文 参考訳(メタデータ) (2024-05-31T10:13:17Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。
本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。
本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。