論文の概要: SC-VAE: Sparse Coding-based Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2303.16666v1
- Date: Wed, 29 Mar 2023 13:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 14:51:41.294654
- Title: SC-VAE: Sparse Coding-based Variational Autoencoder
- Title(参考訳): SC-VAE:スパース符号化に基づく変分オートエンコーダ
- Authors: Pan Xiao, Peijie Qiu, Aristeidis Sotiras
- Abstract要約: 本稿では,分散符号化を多変量オートエンコーダフレームワークに統合した SC-VAE (sparse coding-based VAE) を提案する。
我々のモデルは、最先端の手法と比較して、画像再構成結果の改善が可能である。
- 参考スコア(独自算出の注目度): 0.225596179391365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rich data representations from unlabeled data is a key challenge
towards applying deep learning algorithms in downstream supervised tasks.
Several variants of variational autoencoders have been proposed to learn
compact data representaitons by encoding high-dimensional data in a lower
dimensional space. Two main classes of VAEs methods may be distinguished
depending on the characteristics of the meta-priors that are enforced in the
representation learning step. The first class of methods derives a continuous
encoding by assuming a static prior distribution in the latent space. The
second class of methods learns instead a discrete latent representation using
vector quantization (VQ) along with a codebook. However, both classes of
methods suffer from certain challenges, which may lead to suboptimal image
reconstruction results. The first class of methods suffers from posterior
collapse, whereas the second class of methods suffers from codebook collapse.
To address these challenges, we introduce a new VAE variant, termed SC-VAE
(sparse coding-based VAE), which integrates sparse coding within variational
autoencoder framework. Instead of learning a continuous or discrete latent
representation, the proposed method learns a sparse data representation that
consists of a linear combination of a small number of learned atoms. The sparse
coding problem is solved using a learnable version of the iterative shrinkage
thresholding algorithm (ISTA). Experiments on two image datasets demonstrate
that our model can achieve improved image reconstruction results compared to
state-of-the-art methods. Moreover, the use of learned sparse code vectors
allows us to perform downstream task like coarse image segmentation through
clustering image patches.
- Abstract(参考訳): ラベルのないデータからリッチなデータ表現を学ぶことは、下流の教師付きタスクにディープラーニングアルゴリズムを適用するための重要な課題である。
低次元空間に高次元データを符号化することでコンパクトなデータ表現を学習するために、変分オートエンコーダのいくつかの変種が提案されている。
VAEメソッドの2つの主要なクラスは、表現学習ステップで強制されるメタプライヤの特性によって区別することができる。
第一級のメソッドは、潜在空間における静的事前分布を仮定して連続符号化を導出する。
2つ目のクラスは、コードブックとともにベクトル量子化(VQ)を用いて離散潜在表現を学ぶ。
しかし,どちらの手法も特定の課題に悩まされており,画像再構成の結果が得られうる。
第1級のメソッドは後部崩壊に悩まされ、第2級のメソッドはコードブック崩壊に悩まされる。
これらの課題に対処するため,我々は,変分オートエンコーダフレームワークにスパース符号化を統合するsc-vae (sparse coding-based vae)と呼ばれる新しいvae変種を導入する。
連続的あるいは離散的な潜在表現を学習する代わりに、より少ない数の学習原子の線形結合からなるスパースデータ表現を学習する。
反復収縮しきい値アルゴリズム(ISTA)の学習可能なバージョンを用いてスパース符号化問題を解く。
2つの画像データセットを用いた実験により,本モデルが最先端手法と比較して画像再構成精度の向上を実現した。
さらに、学習したスパースコードベクトルを使用することで、クラスタリングイメージパッチを通じて粗いイメージセグメンテーションのような下流タスクを実行できる。
関連論文リスト
- Addressing Representation Collapse in Vector Quantized Models with One Linear Layer [10.532262196027752]
ベクトル量子化(英: Vector Quantization, VQ)は、連続表現を離散符号に変換する方法である。
VQモデルは、潜在空間における表現崩壊の問題によってしばしば妨げられる。
線形変換層を通じてコードベクトルを再パラメータ化する新しい手法である textbfSimVQ を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:40:18Z) - SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook [9.993066868670283]
本稿では,SGC-VQGANをセマンティックオンラインクラスタリング法で導入し,一貫性セマンティックラーニングによるトークンセマンティクスを強化する。
提案手法は時間空間的に一貫したセマンティック・コードブックを構築し,コードブックの崩壊問題と不均衡なトークン・セマンティクスに対処する。
論文 参考訳(メタデータ) (2024-09-09T23:12:43Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文 参考訳(メタデータ) (2023-02-18T14:40:07Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Deterministic Decoding for Discrete Data in Variational Autoencoders [5.254093731341154]
サンプリングの代わりに最上位のトークンを選択するシーケンシャルデータに対して,決定論的デコーダ(DD-VAE)を用いたVAEモデルについて検討する。
分子生成や最適化問題を含む複数のデータセット上でのDD-VAEの性能を示す。
論文 参考訳(メタデータ) (2020-03-04T16:36:52Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。