論文の概要: Rate-Adaptive Quantization: A Multi-Rate Codebook Adaptation for Vector Quantization-based Generative Models
- arxiv url: http://arxiv.org/abs/2405.14222v2
- Date: Fri, 31 Jan 2025 10:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:22.917888
- Title: Rate-Adaptive Quantization: A Multi-Rate Codebook Adaptation for Vector Quantization-based Generative Models
- Title(参考訳): レート適応量子化:ベクトル量子化に基づく生成モデルのためのマルチレートコードブック適応
- Authors: Jiwan Seo, Joonhyuk Kang,
- Abstract要約: 本稿では、VQベースの生成モデルのためのマルチレートコードブック適応フレームワークであるRate-Adaptive Quantization (RAQ)を紹介する。
RAQは、単一のベースラインVQモデルから可変レートのコードブックを生成するために、データ駆動のアプローチを適用する。
実験の結果、RAQは複数のレートで効果的に動作し、しばしば従来の固定レートVQベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 3.7906296809297393
- License:
- Abstract: Learning discrete representations with vector quantization (VQ) has emerged as a powerful approach in various generative models. However, most VQ-based models rely on a single, fixed-rate codebook, requiring extensive retraining for new bitrates or efficiency requirements. We introduce Rate-Adaptive Quantization (RAQ), a multi-rate codebook adaptation framework for VQ-based generative models. RAQ applies a data-driven approach to generate variable-rate codebooks from a single baseline VQ model, enabling flexible tradeoffs between compression and reconstruction fidelity. Additionally, we provide a simple clustering-based procedure for pre-trained VQ models, offering an alternative when retraining is infeasible. Our experiments show that RAQ performs effectively across multiple rates, often outperforming conventional fixed-rate VQ baselines. By enabling a single system to seamlessly handle diverse bitrate requirements, RAQ extends the adaptability of VQ-based generative models and broadens their applicability to data compression, reconstruction, and generation tasks.
- Abstract(参考訳): ベクトル量子化(VQ)による離散表現の学習は、様々な生成モデルにおいて強力なアプローチとして現れている。
しかしながら、ほとんどのVQベースのモデルは1つの固定レートのコードブックに依存しており、新しいビットレートや効率の要求に対して広範な再トレーニングを必要としている。
本稿では、VQベースの生成モデルのためのマルチレートコードブック適応フレームワークであるRate-Adaptive Quantization (RAQ)を紹介する。
RAQは、単一のベースラインVQモデルから可変レートのコードブックを生成するためのデータ駆動型アプローチを適用し、圧縮と再構成の整合性の間の柔軟なトレードオフを可能にする。
さらに、事前学習されたVQモデルに対して、簡単なクラスタリングベースのプロシージャを提供し、再学習が不可能な場合の代替手段を提供する。
実験の結果、RAQは複数のレートで効果的に動作し、しばしば従来の固定レートVQベースラインよりも優れていた。
単一システムが多様なビットレート要求をシームレスに処理できるようにすることで、RAQはVQベースの生成モデルの適応性を拡張し、データ圧縮、再構築、生成タスクへの適用性を広げる。
関連論文リスト
- Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。
AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。
アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文 参考訳(メタデータ) (2024-11-21T02:15:52Z) - Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior [5.862123282894087]
ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入する。
VQ-VAEは、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。
GM-VQは,手工芸品に頼らずに,コードブックの利用率を向上し,情報損失を低減する。
論文 参考訳(メタデータ) (2024-10-14T05:58:11Z) - Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - Balance of Number of Embedding and their Dimensions in Vector Quantization [11.577770138594436]
本研究では,Vector Quantized Variational Autoencoder (VQ-VAE)アーキテクチャにおけるコードブックサイズと埋め込み寸法のバランスについて検討した。
本稿では,Gumbel-Softmax機構を基盤とした適応的動的量子化手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T03:07:31Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes [18.57499609338579]
本稿では,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる,変分ベイズフレームワークに基づく階層的離散表現学習フレームワークを提案する。
HQ-VAEはVQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化する
画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。
論文 参考訳(メタデータ) (2023-12-31T01:39:38Z) - LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient
Representations [0.0]
学習可能な格子ベクトル量子化を導入し、離散表現の学習に有効であることを示す。
LL-VQ-VAEと呼ばれるこの手法は、VQ-VAEのベクトル量子化層を格子ベースの離散化に置き換える。
VQ-VAEと比較して、同じトレーニング条件下での低い再構成誤差、短時間のトレーニング、一定数のパラメータで得られる。
論文 参考訳(メタデータ) (2023-10-13T20:03:18Z) - Learning Answer Generation using Supervision from Automatic Question
Answering Evaluators [98.9267570170737]
我々は、自動QA評価モデル(GAVA)の監督を用いたGenQAのための新しいトレーニングパラダイムを提案する。
提案手法を2つの学術的, 1つの産業的データセット上で評価し, 過去の技術状況に対して, 回答精度を大幅に向上させた。
論文 参考訳(メタデータ) (2023-05-24T16:57:04Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed
Stochastic Quantization [13.075574481614478]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の注目すべき問題は、学習された離散表現がコードブックの全容量のごく一部しか使用していないことである。
本稿では,新しい量子化法と量子化法により,標準VAEを拡張した新しいトレーニング手法を提案する。
実験の結果,SQ-VAEはコモンズを使わずにコードブックの利用を改善することがわかった。
論文 参考訳(メタデータ) (2022-05-16T09:49:37Z) - FLAT: Few-Shot Learning via Autoencoding Transformation Regularizers [67.46036826589467]
本稿では,データ例のラベルを使わずに,変換の分布によって引き起こされる特徴表現の変化を学習することで,新たな正規化機構を提案する。
エンコードされた特徴レベルで変換強化されたバリエーションを検査することで、ベースカテゴリへのオーバーフィットのリスクを最小限に抑えることができる。
実験結果から,文学における現在の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2019-12-29T15:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。