Fugu-MT 論文翻訳(概要): RAQ-VAE: Rate-Adaptive Vector-Quantized Variational Autoencoder

論文の概要: RAQ-VAE: Rate-Adaptive Vector-Quantized Variational Autoencoder

arxiv url: http://arxiv.org/abs/2405.14222v1
Date: Thu, 23 May 2024 06:32:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 18:34:03.192079
Title: RAQ-VAE: Rate-Adaptive Vector-Quantized Variational Autoencoder
Title（参考訳）: RAQ-VAE:レート適応ベクトル量子変分オートエンコーダ
Authors: Jiwan Seo, Joonhyuk Kang,
Abstract要約: 本稿では,2つの新しいコードブック表現手法による課題に対処するRate-Adaptive VQ-VAE(RAQ-VAE)フレームワークを紹介する。実験により、RAQ-VAEは複数のレートで効率的な再構成性能を示し、従来の固定レートVQ-VAEモデルよりも優れていることがわかった。この研究により、VQ-VAEの適応性と性能が向上し、データ再構成、生成、コンピュータビジョンタスクに広く応用されている。
参考スコア（独自算出の注目度）: 3.7906296809297393
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vector Quantized Variational AutoEncoder (VQ-VAE) is an established technique in machine learning for learning discrete representations across various modalities. However, its scalability and applicability are limited by the need to retrain the model to adjust the codebook for different data or model scales. We introduce the Rate-Adaptive VQ-VAE (RAQ-VAE) framework, which addresses this challenge with two novel codebook representation methods: a model-based approach using a clustering-based technique on an existing well-trained VQ-VAE model, and a data-driven approach utilizing a sequence-to-sequence (Seq2Seq) model for variable-rate codebook generation. Our experiments demonstrate that RAQ-VAE achieves effective reconstruction performance across multiple rates, often outperforming conventional fixed-rate VQ-VAE models. This work enhances the adaptability and performance of VQ-VAEs, with broad applications in data reconstruction, generation, and computer vision tasks.
Abstract（参考訳）: Vector Quantized Variational AutoEncoder (VQ-VAE) は、様々なモードで離散表現を学習する機械学習において確立された技術である。しかし、そのスケーラビリティと適用性は、異なるデータやモデルスケールのコードブックを調整するためにモデルを再トレーニングする必要性によって制限される。本稿では、この課題に対処するRate-Adaptive VQ-VAE(RAQ-VAE)フレームワークを紹介し、既存のよく訓練されたVQ-VAEモデルにクラスタリングベースの手法を用いたモデルベースアプローチと、可変レートのコードブック生成にシーケンシャル・ツー・シーケンス(Seq2Seq)モデルを利用したデータ駆動アプローチを提案する。実験により、RAQ-VAEは複数のレートで効率的な再構成性能を示し、従来の固定レートVQ-VAEモデルよりも優れていることがわかった。この研究により、VQ-VAEの適応性と性能が向上し、データ再構成、生成、コンピュータビジョンタスクに広く応用されている。

関連論文リスト

Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。 AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文参考訳（メタデータ） (2024-11-21T02:15:52Z)
Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior [5.862123282894087]
ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入する。 VQ-VAEは、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。 GM-VQは,手工芸品に頼らずに,コードブックの利用率を向上し,情報損失を低減する。
論文参考訳（メタデータ） (2024-10-14T05:58:11Z)
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。 Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文参考訳（メタデータ） (2024-09-18T17:59:32Z)
VQ-Flow: Taming Normalizing Flows for Multi-Class Anomaly Detection via Hierarchical Vector Quantization [101.41553763861381]
本稿では,マルチクラス異常検出における流れの正規化の可能性について検討する。我々はフローモデルに、教師なしの方法で複数のクラス正規データの異なる概念を区別する権限を与え、結果としてVQ-Flowという新しいフローベース統一手法が生み出された。提案されたVQ-Flowは、統合トレーニングスキーム内でのマルチクラスの異常検出の最先端を推し進め、MVTec ADで99.5%/98.3%のAUROCが得られる。
論文参考訳（メタデータ） (2024-09-02T05:01:41Z)
Balance of Number of Embedding and their Dimensions in Vector Quantization [11.577770138594436]
本研究では,Vector Quantized Variational Autoencoder (VQ-VAE)アーキテクチャにおけるコードブックサイズと埋め込み寸法のバランスについて検討した。本稿では,Gumbel-Softmax機構を基盤とした適応的動的量子化手法を提案する。
論文参考訳（メタデータ） (2024-07-06T03:07:31Z)
HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文参考訳（メタデータ） (2024-03-18T03:17:08Z)
HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes [18.57499609338579]
本稿では,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる,変分ベイズフレームワークに基づく階層的離散表現学習フレームワークを提案する。 HQ-VAEはVQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化する画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。
論文参考訳（メタデータ） (2023-12-31T01:39:38Z)
LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient Representations [0.0]
学習可能な格子ベクトル量子化を導入し、離散表現の学習に有効であることを示す。 LL-VQ-VAEと呼ばれるこの手法は、VQ-VAEのベクトル量子化層を格子ベースの離散化に置き換える。 VQ-VAEと比較して、同じトレーニング条件下での低い再構成誤差、短時間のトレーニング、一定数のパラメータで得られる。
論文参考訳（メタデータ） (2023-10-13T20:03:18Z)
Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。 SCQは微分凸最適化(DCO)層のように機能する。 CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文参考訳（メタデータ） (2023-10-04T17:45:14Z)
Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文参考訳（メタデータ） (2023-07-27T18:31:04Z)
An Empirical Comparison of LM-based Question and Answer Generation Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2023-05-26T14:59:53Z)
Learning Answer Generation using Supervision from Automatic Question Answering Evaluators [98.9267570170737]
我々は、自動QA評価モデル(GAVA)の監督を用いたGenQAのための新しいトレーニングパラダイムを提案する。提案手法を2つの学術的, 1つの産業的データセット上で評価し, 過去の技術状況に対して, 回答精度を大幅に向上させた。
論文参考訳（メタデータ） (2023-05-24T16:57:04Z)
CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文参考訳（メタデータ） (2022-06-29T15:22:01Z)
SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization [13.075574481614478]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の注目すべき問題は、学習された離散表現がコードブックの全容量のごく一部しか使用していないことである。本稿では,新しい量子化法と量子化法により,標準VAEを拡張した新しいトレーニング手法を提案する。実験の結果,SQ-VAEはコモンズを使わずにコードブックの利用を改善することがわかった。
論文参考訳（メタデータ） (2022-05-16T09:49:37Z)
X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization in Visual Question Answering [49.36818290978525]
既存の視覚概念の再構成は、トレーニングセットで目に見えない構成を生成することができる。本稿では,その問題を暗黙的に扱うためのグラフ生成モデリングベーストレーニングスキーム(X-GGM)を提案する。 X-GGM方式でトレーニングされたベースラインVQAモデルは、2つの標準VQAOODベンチマーク上で最先端のOOD性能を達成する。
論文参考訳（メタデータ） (2021-07-24T10:17:48Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)
FLAT: Few-Shot Learning via Autoencoding Transformation Regularizers [67.46036826589467]
本稿では,データ例のラベルを使わずに,変換の分布によって引き起こされる特徴表現の変化を学習することで,新たな正規化機構を提案する。エンコードされた特徴レベルで変換強化されたバリエーションを検査することで、ベースカテゴリへのオーバーフィットのリスクを最小限に抑えることができる。実験結果から,文学における現在の最先端手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2019-12-29T15:26:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。