論文の概要: RAQ-VAE: Rate-Adaptive Vector-Quantized Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2405.14222v1
- Date: Thu, 23 May 2024 06:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:34:03.192079
- Title: RAQ-VAE: Rate-Adaptive Vector-Quantized Variational Autoencoder
- Title(参考訳): RAQ-VAE:レート適応ベクトル量子変分オートエンコーダ
- Authors: Jiwan Seo, Joonhyuk Kang,
- Abstract要約: 本稿では,2つの新しいコードブック表現手法による課題に対処するRate-Adaptive VQ-VAE(RAQ-VAE)フレームワークを紹介する。
実験により、RAQ-VAEは複数のレートで効率的な再構成性能を示し、従来の固定レートVQ-VAEモデルよりも優れていることがわかった。
この研究により、VQ-VAEの適応性と性能が向上し、データ再構成、生成、コンピュータビジョンタスクに広く応用されている。
- 参考スコア(独自算出の注目度): 3.7906296809297393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector Quantized Variational AutoEncoder (VQ-VAE) is an established technique in machine learning for learning discrete representations across various modalities. However, its scalability and applicability are limited by the need to retrain the model to adjust the codebook for different data or model scales. We introduce the Rate-Adaptive VQ-VAE (RAQ-VAE) framework, which addresses this challenge with two novel codebook representation methods: a model-based approach using a clustering-based technique on an existing well-trained VQ-VAE model, and a data-driven approach utilizing a sequence-to-sequence (Seq2Seq) model for variable-rate codebook generation. Our experiments demonstrate that RAQ-VAE achieves effective reconstruction performance across multiple rates, often outperforming conventional fixed-rate VQ-VAE models. This work enhances the adaptability and performance of VQ-VAEs, with broad applications in data reconstruction, generation, and computer vision tasks.
- Abstract(参考訳): Vector Quantized Variational AutoEncoder (VQ-VAE) は、様々なモードで離散表現を学習する機械学習において確立された技術である。
しかし、そのスケーラビリティと適用性は、異なるデータやモデルスケールのコードブックを調整するためにモデルを再トレーニングする必要性によって制限される。
本稿では、この課題に対処するRate-Adaptive VQ-VAE(RAQ-VAE)フレームワークを紹介し、既存のよく訓練されたVQ-VAEモデルにクラスタリングベースの手法を用いたモデルベースアプローチと、可変レートのコードブック生成にシーケンシャル・ツー・シーケンス(Seq2Seq)モデルを利用したデータ駆動アプローチを提案する。
実験により、RAQ-VAEは複数のレートで効率的な再構成性能を示し、従来の固定レートVQ-VAEモデルよりも優れていることがわかった。
この研究により、VQ-VAEの適応性と性能が向上し、データ再構成、生成、コンピュータビジョンタスクに広く応用されている。
関連論文リスト
- Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior [5.862123282894087]
ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入する。
VQ-VAEは、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。
GM-VQは,手工芸品に頼らずに,コードブックの利用率を向上し,情報損失を低減する。
論文 参考訳(メタデータ) (2024-10-14T05:58:11Z) - VQ-Flow: Taming Normalizing Flows for Multi-Class Anomaly Detection via Hierarchical Vector Quantization [101.41553763861381]
本稿では,マルチクラス異常検出における流れの正規化の可能性について検討する。
我々はフローモデルに、教師なしの方法で複数のクラス正規データの異なる概念を区別する権限を与え、結果としてVQ-Flowという新しいフローベース統一手法が生み出された。
提案されたVQ-Flowは、統合トレーニングスキーム内でのマルチクラスの異常検出の最先端を推し進め、MVTec ADで99.5%/98.3%のAUROCが得られる。
論文 参考訳(メタデータ) (2024-09-02T05:01:41Z) - Balance of Number of Embedding and their Dimensions in Vector Quantization [11.577770138594436]
本研究では,Vector Quantized Variational Autoencoder (VQ-VAE)アーキテクチャにおけるコードブックサイズと埋め込み寸法のバランスについて検討した。
本稿では,Gumbel-Softmax機構を基盤とした適応的動的量子化手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T03:07:31Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes [18.57499609338579]
本稿では,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる,変分ベイズフレームワークに基づく階層的離散表現学習フレームワークを提案する。
HQ-VAEはVQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化する
画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。
論文 参考訳(メタデータ) (2023-12-31T01:39:38Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization
in Visual Question Answering [49.36818290978525]
既存の視覚概念の再構成は、トレーニングセットで目に見えない構成を生成することができる。
本稿では,その問題を暗黙的に扱うためのグラフ生成モデリングベーストレーニングスキーム(X-GGM)を提案する。
X-GGM方式でトレーニングされたベースラインVQAモデルは、2つの標準VQAOODベンチマーク上で最先端のOOD性能を達成する。
論文 参考訳(メタデータ) (2021-07-24T10:17:48Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。