Fugu-MT 論文翻訳(概要): HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes

論文の概要: HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes

arxiv url: http://arxiv.org/abs/2401.00365v2
Date: Thu, 28 Mar 2024 06:38:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 21:02:36.389673
Title: HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes
Title（参考訳）: HQ-VAE:変動ベイを用いた階層型離散表現学習
Authors: Yuhta Takida, Yukara Ikemiya, Takashi Shibuya, Kazuki Shimada, Woosung Choi, Chieh-Hsin Lai, Naoki Murata, Toshimitsu Uesaka, Kengo Uchida, Wei-Hsiang Liao, Yuki Mitsufuji,
Abstract要約: 本稿では,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる,変分ベイズフレームワークに基づく階層的離散表現学習フレームワークを提案する。 HQ-VAEはVQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化する画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。
参考スコア（独自算出の注目度）: 18.57499609338579
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vector quantization (VQ) is a technique to deterministically learn features with discrete codebook representations. It is commonly performed with a variational autoencoding model, VQ-VAE, which can be further extended to hierarchical structures for making high-fidelity reconstructions. However, such hierarchical extensions of VQ-VAE often suffer from the codebook/layer collapse issue, where the codebook is not efficiently used to express the data, and hence degrades reconstruction accuracy. To mitigate this problem, we propose a novel unified framework to stochastically learn hierarchical discrete representation on the basis of the variational Bayes framework, called hierarchically quantized variational autoencoder (HQ-VAE). HQ-VAE naturally generalizes the hierarchical variants of VQ-VAE, such as VQ-VAE-2 and residual-quantized VAE (RQ-VAE), and provides them with a Bayesian training scheme. Our comprehensive experiments on image datasets show that HQ-VAE enhances codebook usage and improves reconstruction performance. We also validated HQ-VAE in terms of its applicability to a different modality with an audio dataset.
Abstract（参考訳）: ベクトル量子化(VQ)は、離散的なコードブック表現で特徴を決定論的に学習する技法である。変分自動符号化モデルであるVQ-VAEを用いて、高忠実度再構成のために階層構造にさらに拡張することができる。しかしながら、VQ-VAEのこのような階層的な拡張は、しばしばコードブック/層崩壊の問題に悩まされる。この問題を緩和するために,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる変分ベイズフレームワークに基づいて,階層的離散表現を確率的に学習する新しい統一フレームワークを提案する。 HQ-VAEは、VQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化し、ベイズ的な訓練スキームを提供する。画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。また、音声データセットによる異なるモダリティの適用性の観点からHQ-VAEを検証した。

関連論文リスト

EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文参考訳（メタデータ） (2025-06-13T08:00:54Z)
IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文参考訳（メタデータ） (2025-03-12T11:39:51Z)
RAQ-VAE: Rate-Adaptive Vector-Quantized Variational Autoencoder [3.7906296809297393]
本稿では,2つの新しいコードブック表現手法による課題に対処するRate-Adaptive VQ-VAE(RAQ-VAE)フレームワークを紹介する。実験により、RAQ-VAEは複数のレートで効率的な再構成性能を示し、従来の固定レートVQ-VAEモデルよりも優れていることがわかった。この研究により、VQ-VAEの適応性と性能が向上し、データ再構成、生成、コンピュータビジョンタスクに広く応用されている。
論文参考訳（メタデータ） (2024-05-23T06:32:42Z)
HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文参考訳（メタデータ） (2024-03-18T03:17:08Z)
LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient Representations [0.0]
学習可能な格子ベクトル量子化を導入し、離散表現の学習に有効であることを示す。 LL-VQ-VAEと呼ばれるこの手法は、VQ-VAEのベクトル量子化層を格子ベースの離散化に置き換える。 VQ-VAEと比較して、同じトレーニング条件下での低い再構成誤差、短時間のトレーニング、一定数のパラメータで得られる。
論文参考訳（メタデータ） (2023-10-13T20:03:18Z)
Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文参考訳（メタデータ） (2023-07-27T18:31:04Z)
Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。 WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文参考訳（メタデータ） (2023-02-12T13:51:36Z)
Hierarchical Residual Learning Based Vector Quantized Variational Autoencoder for Image Reconstruction and Generation [19.92324010429006]
本稿では,階層的なデータの離散表現を学習するHR-VQVAEと呼ばれる多層変分オートエンコーダを提案する。画像再構成と生成のタスクについて,本手法の評価を行った。
論文参考訳（メタデータ） (2022-08-09T06:04:25Z)
SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization [13.075574481614478]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の注目すべき問題は、学習された離散表現がコードブックの全容量のごく一部しか使用していないことである。本稿では,新しい量子化法と量子化法により,標準VAEを拡張した新しいトレーニング手法を提案する。実験の結果,SQ-VAEはコモンズを使わずにコードブックの利用を改善することがわかった。
論文参考訳（メタデータ） (2022-05-16T09:49:37Z)
Hierarchical Variational Autoencoder for Visual Counterfactuals [79.86967775454316]
条件変量オート(VAE)は、説明可能な人工知能(XAI)ツールとして注目されている。本稿では, 後部の効果がいかに緩和され, 対物的効果が成功するかを示す。本稿では,アプリケーション内の分類器を視覚的に監査できる階層型VAEについて紹介する。
論文参考訳（メタデータ） (2021-02-01T14:07:11Z)
Learning from Lexical Perturbations for Consistent Visual Question Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。 VQA Perturbed Pairings (VQA P2) も提案する。
論文参考訳（メタデータ） (2020-11-26T17:38:03Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)
Hierarchical Quantized Autoencoders [3.9146761527401432]
本稿では,Vector Quantized Variencoders (VQ-VAEs) の階層構造を用いて,高い圧縮係数を求める。量子化と階層的潜在構造の組み合わせは、確率に基づく画像圧縮に役立つことを示す。得られたスキームは、高い知覚品質の画像を再構成するマルコフ変数の列を生成する。
論文参考訳（メタデータ） (2020-02-19T11:26:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。