論文の概要: HyperVQ: MLR-based Vector Quantization in Hyperbolic Space
- arxiv url: http://arxiv.org/abs/2403.13015v2
- Date: Sun, 06 Apr 2025 23:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 17:32:46.456446
- Title: HyperVQ: MLR-based Vector Quantization in Hyperbolic Space
- Title(参考訳): HyperVQ:双曲空間におけるMLRに基づくベクトル量子化
- Authors: Nabarun Goswami, Yusuke Mukuta, Tatsuya Harada,
- Abstract要約: 一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。
本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。
本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
- 参考スコア(独自算出の注目度): 56.4245885674567
- License:
- Abstract: The success of models operating on tokenized data has heightened the need for effective tokenization methods, particularly in vision and auditory tasks where inputs are naturally continuous. A common solution is to employ Vector Quantization (VQ) within VQ Variational Autoencoders (VQVAEs), transforming inputs into discrete tokens by clustering embeddings in Euclidean space. However, Euclidean embeddings not only suffer from inefficient packing and limited separation - due to their polynomial volume growth - but are also prone to codebook collapse, where only a small subset of codebook vectors are effectively utilized. To address these limitations, we introduce HyperVQ, a novel approach that formulates VQ as a hyperbolic Multinomial Logistic Regression (MLR) problem, leveraging the exponential volume growth in hyperbolic space to mitigate collapse and improve cluster separability. Additionally, HyperVQ represents codebook vectors as geometric representatives of hyperbolic decision hyperplanes, encouraging disentangled and robust latent representations. Our experiments demonstrate that HyperVQ matches traditional VQ in generative and reconstruction tasks, while surpassing it in discriminative performance and yielding a more efficient and disentangled codebook.
- Abstract(参考訳): トークン化されたデータを操作するモデルの成功により、特に入力が自然に連続している視覚や聴覚タスクにおいて、効果的なトークン化手法の必要性が高まっている。
一般的な解決策は、ベクトル量子化(VQ)をVQ変分オートエンコーダ(VQVAE)に導入し、ユークリッド空間に埋め込みをクラスタリングすることで入力を離散トークンに変換することである。
しかしながら、ユークリッドの埋め込みは、非効率なパッキングと限定的な分離に苦しむだけでなく、コードブックベクターの小さなサブセットしか有効に利用できないコードブックの崩壊にも悩まされる。
これらの制約に対処するため、ハイパーVQは、双曲型多項ロジスティック回帰(MLR)問題としてVQを定式化し、双曲型空間の指数的体積増加を利用して、崩壊を緩和し、クラスタ分離性を向上させる新しいアプローチである。
さらに、HyperVQは双曲型決定超平面の幾何学的代表としてコードブックベクトルを表現し、絡み合った頑健な潜在表現を奨励する。
我々の実験は,HyperVQが従来のVQに比較して生成・再構成作業を行い,識別性能を上回り,より効率的かつ不整合なコードブックが得られることを示した。
関連論文リスト
- HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling [3.9426000822656224]
より潜在的な空間はより表現力が高く、ベクトル量子化アプローチよりも表現性がよいことを示す。
以上の結果から,VQ手法の真の利点は,潜伏空間の離散化ではなく,潜伏空間の損失圧縮によるものである可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-16T08:20:58Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient
Representations [0.0]
学習可能な格子ベクトル量子化を導入し、離散表現の学習に有効であることを示す。
LL-VQ-VAEと呼ばれるこの手法は、VQ-VAEのベクトル量子化層を格子ベースの離散化に置き換える。
VQ-VAEと比較して、同じトレーニング条件下での低い再構成誤差、短時間のトレーニング、一定数のパラメータで得られる。
論文 参考訳(メタデータ) (2023-10-13T20:03:18Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Unshuffling Data for Improved Generalization [65.57124325257409]
トレーニングディストリビューションを越えた一般化は、マシンラーニングにおける中核的な課題である。
本研究では,複数の学習環境として扱われる非d.d.サブセットにデータを分割することで,アウト・オブ・ディストリビューションの一般化を向上したモデル学習を導出できることを示す。
論文 参考訳(メタデータ) (2020-02-27T03:07:41Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。