論文の概要: LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling
- arxiv url: http://arxiv.org/abs/2409.11184v1
- Date: Mon, 16 Sep 2024 08:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:35:30.183591
- Title: LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling
- Title(参考訳): LASERS: ジェネレーティブモデリングのための疎結合表現のための遅延空間符号化
- Authors: Xin Li, Anand Sarwate,
- Abstract要約: より潜在的な空間はより表現力が高く、ベクトル量子化アプローチよりも表現性がよいことを示す。
以上の結果から,VQ手法の真の利点は,潜伏空間の離散化ではなく,潜伏空間の損失圧縮によるものである可能性が示唆された。
- 参考スコア(独自算出の注目度): 3.9426000822656224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning compact and meaningful latent space representations has been shown to be very useful in generative modeling tasks for visual data. One particular example is applying Vector Quantization (VQ) in variational autoencoders (VQ-VAEs, VQ-GANs, etc.), which has demonstrated state-of-the-art performance in many modern generative modeling applications. Quantizing the latent space has been justified by the assumption that the data themselves are inherently discrete in the latent space (like pixel values). In this paper, we propose an alternative representation of the latent space by relaxing the structural assumption than the VQ formulation. Specifically, we assume that the latent space can be approximated by a union of subspaces model corresponding to a dictionary-based representation under a sparsity constraint. The dictionary is learned/updated during the training process. We apply this approach to look at two models: Dictionary Learning Variational Autoencoders (DL-VAEs) and DL-VAEs with Generative Adversarial Networks (DL-GANs). We show empirically that our more latent space is more expressive and has leads to better representations than the VQ approach in terms of reconstruction quality at the expense of a small computational overhead for the latent space computation. Our results thus suggest that the true benefit of the VQ approach might not be from discretization of the latent space, but rather the lossy compression of the latent space. We confirm this hypothesis by showing that our sparse representations also address the codebook collapse issue as found common in VQ-family models.
- Abstract(参考訳): コンパクトで有意義な潜在空間表現の学習は、視覚データの生成的モデリングタスクにおいて非常に有用であることが示されている。
例えば、変分オートエンコーダ(VQ-VAEs、VQ-GANsなど)にベクトル量子化(VQ)を適用し、現代の多くのモデルアプリケーションで最先端の性能を実証している。
潜時空間の量子化は、データ自体が潜時空間(ピクセル値など)において本質的に離散であるという仮定によって正当化されている。
本稿では、VQの定式化よりも構造的仮定を緩和することにより、潜在空間の代替表現を提案する。
具体的には、余剰制約の下で辞書ベースの表現に対応する部分空間モデルの和で、潜伏空間を近似することができると仮定する。
辞書は、トレーニングプロセス中に学習/更新される。
本稿では,DL-VAE (Dictionary Learning Variational Autoencoders) と DL-VAEs with Generative Adversarial Networks (DL-GANs) の2つのモデルについて検討する。
我々は、より遅延空間がより表現力が高く、潜在空間計算の計算オーバーヘッドを少なくして、再構成品質の点でVQアプローチよりも優れた表現が得られることを実証的に示す。
以上の結果から,VQ手法の真の利点は,潜伏空間の離散化ではなく,潜伏空間の損失圧縮によるものである可能性が示唆された。
VQファミリーモデルでよく見られるように、スパース表現もコードブックの崩壊問題にも対処していることを示すことで、この仮説を裏付ける。
関連論文リスト
- Addressing Representation Collapse in Vector Quantized Models with One Linear Layer [10.532262196027752]
ベクトル量子化(英: Vector Quantization, VQ)は、連続表現を離散符号に変換する方法である。
VQモデルは、潜在空間における表現崩壊の問題によってしばしば妨げられる。
線形変換層を通じてコードベクトルを再パラメータ化する新しい手法である textbfSimVQ を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:40:18Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Barlow constrained optimization for Visual Question Answering [105.3372546782068]
本稿では,バーロウ理論(COB)を用いたVQAモデルの新たな正規化,制約付き最適化を提案する。
我々のモデルは、解答と画像+クエストを、本質的に同じ意味情報である2つの異なる視点として考える、解答埋め込み空間と結合空間を整合させる。
最先端のGEモデルに基づく場合、VQAの精度はVQA-CP v2データセットとVQA v2データセットでそれぞれ1.4%向上する。
論文 参考訳(メタデータ) (2022-03-07T21:27:40Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces [6.574517227976925]
IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。
IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T10:21:41Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Depthwise Discrete Representation Learning [2.728575246952532]
離散表現の学習の最近の進歩は、言語、オーディオ、ビジョンを含むタスクにおいて、アート結果の状態を導いている。
単語、音素、形状などの潜時要因は連続ではなく離散潜時変数で表される。
ベクトル量子化変分オートエンコーダ(VQVAE)は、複数の領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2020-04-11T18:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。