論文の概要: ArcVQ-VAE: A Spherical Vector Quantization Framework with ArcCosine Additive Margin
- arxiv url: http://arxiv.org/abs/2605.13517v1
- Date: Wed, 13 May 2026 13:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.074053
- Title: ArcVQ-VAE: A Spherical Vector Quantization Framework with ArcCosine Additive Margin
- Title(参考訳): ArcVQ-VAE:ArcCosine付加マージンを用いた球ベクトル量子化フレームワーク
- Authors: Jaeyung Kim, YoungJoon Yoo,
- Abstract要約: 本稿では,従来のVQ-VAEのコードブックにArcCosine Additive Margin VQ-VAE (ArcVQ-VAE)を提案する。
提案されたSAMPは、ボール境界ノルム正規化とArcCosine Additive Margin Lossで構成されている。
本稿では,ArcVQ-VAEが再現精度,表現多様性,サンプル品質の点で,ベースラインモデルと競合する性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 8.968053472028862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector Quantized Variational Autoencoder (VQ-VAE) has become a fundamental framework for learning discrete representations in image modeling. However, VQ-VAE models must tokenize entire images using a finite set of codebook vectors, and this capacity limitation restricts their ability to capture rich and diverse representations. In this paper, we propose ArcCosine Additive Margin VQ-VAE (ArcVQ-VAE), a novel vector quantization framework that introduces a spherical angular-margin prior (SAMP) for the codebook of a conventional VQ-VAE. The proposed SAMP consists of Ball-Bounded Norm Regularization, which constrains all codebook vectors within a time-dependent Euclidean ball, and ArcCosine Additive Margin Loss, which encourages greater angular separability among latent vectors. This formulation promotes more discriminative and uniformly dispersed latent representations within the constrained space, thereby improving effective latent-space coverage and leading to improved codebook utilization. Experimental results on standard image reconstruction and generation tasks show that ArcVQ-VAE achieves competitive performance against baseline models in terms of reconstruction accuracy, representation diversity, and sample quality. The code is available at: https://github.com/goals4292/ArcVQ-VAE
- Abstract(参考訳): ベクトル量子化変分オートコーダ(VQ-VAE)は画像モデリングにおいて離散表現を学習するための基本的なフレームワークとなっている。
しかしながら、VQ-VAEモデルは、有限のコードブックベクトルを用いて画像全体をトークン化しなければならないため、この容量制限は、リッチで多様な表現をキャプチャする能力を制限している。
本稿では,従来のVQ-VAEのコードブックに球角マージン先行(SAMP)を導入するベクトル量子化フレームワークであるArcCosine Additive Margin VQ-VAE(ArcVQ-VAE)を提案する。
提案したSAMPは、時間依存ユークリッド球内のすべてのコードブックベクトルを制約するボール境界ノルム正規化と、潜在ベクトル間の角分離性を高めるArcCosine Additive Margin Lossからなる。
この定式化により、制約空間内のより識別的かつ均一に分散された潜在表現が促進され、効率的な潜在空間カバレッジが向上し、コードブックの利用が向上する。
標準画像再構成および生成タスクの実験結果から、ArcVQ-VAEは、再構成精度、表現多様性、サンプル品質の点で、ベースラインモデルと競合する性能を発揮することが示された。
コードは以下の通り。 https://github.com/goals4292/ArcVQ-VAE
関連論文リスト
- VAE with Hyperspherical Coordinates: Improving Anomaly Detection from Hypervolume-Compressed Latent Space [56.362776482614976]
変分オートエンコーダ(VAE)は、これらのベクトルをデータに復号する前に、データを低次元の潜在ベクトルに符号化する。
本稿では,超球面座標を用いてVAEの潜伏変数を定式化し,超球面上の所定の方向に向かって潜伏ベクトルを圧縮する手法を提案する。
これにより、VAEの完全な教師なしおよびOOD異常検出能力が向上し、検討したデータセット上で最高のパフォーマンスを達成できることが示される。
論文 参考訳(メタデータ) (2026-01-25T03:10:24Z) - Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization [60.294965457786844]
ベクトル量子化(VQ)は、画像生成のための離散トークン化器において重要な要素である。
VQBridgeは、地図関数法に基づく堅牢でスケーラブルで効率的なプロジェクタである。
FVQは262kのコードブックでも100%のコードブック利用が可能である。
論文 参考訳(メタデータ) (2025-09-12T11:08:21Z) - Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:59:10Z) - Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior [5.862123282894087]
ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入する。
VQ-VAEは、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。
GM-VQは,手工芸品に頼らずに,コードブックの利用率を向上し,情報損失を低減する。
論文 参考訳(メタデータ) (2024-10-14T05:58:11Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。
本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。
本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes [18.57499609338579]
本稿では,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる,変分ベイズフレームワークに基づく階層的離散表現学習フレームワークを提案する。
HQ-VAEはVQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化する
画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。
論文 参考訳(メタデータ) (2023-12-31T01:39:38Z) - LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient
Representations [0.0]
学習可能な格子ベクトル量子化を導入し、離散表現の学習に有効であることを示す。
LL-VQ-VAEと呼ばれるこの手法は、VQ-VAEのベクトル量子化層を格子ベースの離散化に置き換える。
VQ-VAEと比較して、同じトレーニング条件下での低い再構成誤差、短時間のトレーニング、一定数のパラメータで得られる。
論文 参考訳(メタデータ) (2023-10-13T20:03:18Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。