論文の概要: HyperVQ: MLR-based Vector Quantization in Hyperbolic Space
- arxiv url: http://arxiv.org/abs/2403.13015v1
- Date: Mon, 18 Mar 2024 03:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 21:08:57.550505
- Title: HyperVQ: MLR-based Vector Quantization in Hyperbolic Space
- Title(参考訳): HyperVQ:双曲空間におけるMLRに基づくベクトル量子化
- Authors: Nabarun Goswami, Yusuke Mukuta, Tatsuya Harada,
- Abstract要約: ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 56.4245885674567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of models operating on tokenized data has led to an increased demand for effective tokenization methods, particularly when applied to vision or auditory tasks, which inherently involve non-discrete data. One of the most popular tokenization methods is Vector Quantization (VQ), a key component of several recent state-of-the-art methods across various domains. Typically, a VQ Variational Autoencoder (VQVAE) is trained to transform data to and from its tokenized representation. However, since the VQVAE is trained with a reconstruction objective, there is no constraint for the embeddings to be well disentangled, a crucial aspect for using them in discriminative tasks. Recently, several works have demonstrated the benefits of utilizing hyperbolic spaces for representation learning. Hyperbolic spaces induce compact latent representations due to their exponential volume growth and inherent ability to model hierarchical and structured data. In this work, we explore the use of hyperbolic spaces for vector quantization (HyperVQ), formulating the VQ operation as a hyperbolic Multinomial Logistic Regression (MLR) problem, in contrast to the Euclidean K-Means clustering used in VQVAE. Through extensive experiments, we demonstrate that hyperVQ performs comparably in reconstruction and generative tasks while outperforming VQ in discriminative tasks and learning a highly disentangled latent space.
- Abstract(参考訳): トークン化されたデータを扱うモデルの成功は、特に非離散的なデータを含む視覚や聴覚タスクに適用する場合に、効果的なトークン化手法の需要が高まっている。
最も一般的なトークン化手法の1つはベクトル量子化(VQ)である。
典型的には、VQ変動オートコーダ(VQVAE)は、データのトークン化表現への変換を訓練する。
しかしながら、VQVAEは再構築目的で訓練されているため、埋め込みがうまく切り離されているという制約はなく、差別的なタスクでそれらを使用する上で重要な側面である。
近年,表現学習における双曲空間の利点を実証する研究がいくつかある。
双曲空間は、指数的体積成長と階層的および構造化されたデータをモデル化する固有の能力により、コンパクトな潜在表現を誘導する。
本研究では,ベクトル量子化(HyperVQ)における双曲空間の利用について検討し,VQVAEで使用されるユークリッドK平均クラスタリングとは対照的に,双曲多項ロジスティック回帰(MLR)問題としてVQ演算を定式化する。
広範にわたる実験により,ハイパーVQは,識別的タスクにおいてVQより優れ,非常に不整合な潜在空間を学習しながら,再構成や生成作業において相容れない性能を示す。
関連論文リスト
- HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling [3.9426000822656224]
より潜在的な空間はより表現力が高く、ベクトル量子化アプローチよりも表現性がよいことを示す。
以上の結果から,VQ手法の真の利点は,潜伏空間の離散化ではなく,潜伏空間の損失圧縮によるものである可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-16T08:20:58Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient
Representations [0.0]
学習可能な格子ベクトル量子化を導入し、離散表現の学習に有効であることを示す。
LL-VQ-VAEと呼ばれるこの手法は、VQ-VAEのベクトル量子化層を格子ベースの離散化に置き換える。
VQ-VAEと比較して、同じトレーニング条件下での低い再構成誤差、短時間のトレーニング、一定数のパラメータで得られる。
論文 参考訳(メタデータ) (2023-10-13T20:03:18Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Unshuffling Data for Improved Generalization [65.57124325257409]
トレーニングディストリビューションを越えた一般化は、マシンラーニングにおける中核的な課題である。
本研究では,複数の学習環境として扱われる非d.d.サブセットにデータを分割することで,アウト・オブ・ディストリビューションの一般化を向上したモデル学習を導出できることを示す。
論文 参考訳(メタデータ) (2020-02-27T03:07:41Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。