論文の概要: Product-Quantised Image Representation for High-Quality Image Synthesis
- arxiv url: http://arxiv.org/abs/2510.03191v1
- Date: Fri, 03 Oct 2025 17:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.506229
- Title: Product-Quantised Image Representation for High-Quality Image Synthesis
- Title(参考訳): 高画質画像合成のための製品品質画像表現
- Authors: Denis Zavadski, Nikita Philip Tatsch, Carsten Rother,
- Abstract要約: 本稿では、VQGANのよく知られたベクトル量子化フレームワークにPQを統合する量子化イメージオートエンコーダであるPQGANを紹介する。
PQGANは再建性能の点で最先端の手法よりも顕著な改善を実現している。
- 参考スコア(独自算出の注目度): 11.644579863841434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Product quantisation (PQ) is a classical method for scalable vector encoding, yet it has seen limited usage for latent representations in high-fidelity image generation. In this work, we introduce PQGAN, a quantised image autoencoder that integrates PQ into the well-known vector quantisation (VQ) framework of VQGAN. PQGAN achieves a noticeable improvement over state-of-the-art methods in terms of reconstruction performance, including both quantisation methods and their continuous counterparts. We achieve a PSNR score of 37dB, where prior work achieves 27dB, and are able to reduce the FID, LPIPS, and CMMD score by up to 96%. Our key to success is a thorough analysis of the interaction between codebook size, embedding dimensionality, and subspace factorisation, with vector and scalar quantisation as special cases. We obtain novel findings, such that the performance of VQ and PQ behaves in opposite ways when scaling the embedding dimension. Furthermore, our analysis shows performance trends for PQ that help guide optimal hyperparameter selection. Finally, we demonstrate that PQGAN can be seamlessly integrated into pre-trained diffusion models. This enables either a significantly faster and more compute-efficient generation, or a doubling of the output resolution at no additional cost, positioning PQ as a strong extension for discrete latent representation in image synthesis.
- Abstract(参考訳): 製品量子化(PQ)はスケーラブルなベクトル符号化の古典的な手法であるが、高忠実度画像生成における潜在表現に限られている。
本稿では、VQGANのよく知られたベクトル量子化(VQ)フレームワークにPQを統合する量子化イメージオートエンコーダであるPQGANを紹介する。
PQGANは、量子化法とその連続的な手法を含む、復元性能の観点から、最先端の手法よりも顕著な改善を実現している。
従来の作業が27dBに達し,FID,LPIPS,CMMDのスコアを最大96%削減できるPSNRスコア37dBを達成する。
我々の成功の鍵は、コードブックサイズ、埋め込み次元、部分空間の分解の間の相互作用を、ベクトルとスカラーの量子化を特別な場合として、徹底的に分析することである。
埋め込み次元を拡大する際, VQ と PQ のパフォーマンスが反対に振る舞うという新たな知見を得た。
さらに, 最適パラメータ選択を支援するPQの性能傾向について検討した。
最後に,PQGANを事前学習した拡散モデルにシームレスに統合できることを実証する。
これにより、画像合成における離散潜在表現の強力な拡張としてPQを、大幅に高速でより計算効率の良い生成、あるいは出力解像度の倍増が可能である。
関連論文リスト
- FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation [54.2574228021317]
XQ-GANは画像再構成と生成の両方のために設計された画像トークン化フレームワークである。
我々のフレームワークは、ベクトル量子化(VQ)、残留量子化(RQ)、マルチスケール残留量子化(MSVQ)、製品量子化(PQ)、バイナリ球面量子化(BSQ)など、最先端の量子化技術を統合する。
標準の ImageNet 256x256 ベンチマークでは,本モデルが MAGVIT-v2 (0.9 rFID) と VAR (0.9 rFID) を大幅に上回り,0.64 の rFID を達成した。
論文 参考訳(メタデータ) (2024-12-02T17:58:06Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Learning Optimal Lattice Vector Quantizers for End-to-end Neural Image Compression [16.892815659154053]
格子ベクトル量子化(LVQ)は、機能間の依存関係をより効果的に活用できる魅力的な代替手段である。
従来のLVQ構造は、均一なソース分布のために設計・最適化されている。
本稿では,この弱点を克服するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-25T06:05:08Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Autoregressive Image Generation using Residual Quantization [40.04085054791994]
本稿では,高解像度画像を生成するための2段階のフレームワークを提案する。
フレームワークはResidual-Quantized VAE (RQ-VAE)とRQ-Transformerで構成されている。
提案手法は,高画質画像を生成するために,従来のARモデルよりもはるかに高速なサンプリング速度を有する。
論文 参考訳(メタデータ) (2022-03-03T11:44:46Z) - Hierarchical Quantized Autoencoders [3.9146761527401432]
本稿では,Vector Quantized Variencoders (VQ-VAEs) の階層構造を用いて,高い圧縮係数を求める。
量子化と階層的潜在構造の組み合わせは、確率に基づく画像圧縮に役立つことを示す。
得られたスキームは、高い知覚品質の画像を再構成するマルコフ変数の列を生成する。
論文 参考訳(メタデータ) (2020-02-19T11:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。