論文の概要: Autoregressive Image Generation using Residual Quantization
- arxiv url: http://arxiv.org/abs/2203.01941v1
- Date: Thu, 3 Mar 2022 11:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:37:51.043881
- Title: Autoregressive Image Generation using Residual Quantization
- Title(参考訳): 残留量子化を用いた自己回帰画像生成
- Authors: Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han
- Abstract要約: 本稿では,高解像度画像を生成するための2段階のフレームワークを提案する。
フレームワークはResidual-Quantized VAE (RQ-VAE)とRQ-Transformerで構成されている。
提案手法は,高画質画像を生成するために,従来のARモデルよりもはるかに高速なサンプリング速度を有する。
- 参考スコア(独自算出の注目度): 40.04085054791994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For autoregressive (AR) modeling of high-resolution images, vector
quantization (VQ) represents an image as a sequence of discrete codes. A short
sequence length is important for an AR model to reduce its computational costs
to consider long-range interactions of codes. However, we postulate that
previous VQ cannot shorten the code sequence and generate high-fidelity images
together in terms of the rate-distortion trade-off. In this study, we propose
the two-stage framework, which consists of Residual-Quantized VAE (RQ-VAE) and
RQ-Transformer, to effectively generate high-resolution images. Given a fixed
codebook size, RQ-VAE can precisely approximate a feature map of an image and
represent the image as a stacked map of discrete codes. Then, RQ-Transformer
learns to predict the quantized feature vector at the next position by
predicting the next stack of codes. Thanks to the precise approximation of
RQ-VAE, we can represent a 256$\times$256 image as 8$\times$8 resolution of the
feature map, and RQ-Transformer can efficiently reduce the computational costs.
Consequently, our framework outperforms the existing AR models on various
benchmarks of unconditional and conditional image generation. Our approach also
has a significantly faster sampling speed than previous AR models to generate
high-quality images.
- Abstract(参考訳): 高解像度画像の自動回帰(AR)モデリングでは、ベクトル量子化(VQ)は離散コードのシーケンスとして画像を表す。
短いシーケンス長は、コード間の長距離相互作用を考慮するために計算コストを削減するために重要である。
しかし, 従来のVQでは符号列を短くすることができず, 高忠実度画像を同時に生成できないと仮定する。
本研究では,Residual-Quantized VAE (RQ-VAE) とRQ-Transformer (RQ-Transformer) から構成される2段階のフレームワークを提案する。
固定コードブックのサイズが与えられると、rq-vaeは画像の特徴マップを正確に近似し、画像を離散符号のスタックマップとして表現することができる。
次に、rq変換器は、次の符号スタックを予測して、量子化された特徴ベクトルを次の位置で予測する。
rq-vaeの正確な近似により、256$\times$256の画像を特徴マップの8$\times$8の解像度で表現することができ、rq-transformerは計算コストを効率的に削減できる。
その結果,我々のフレームワークは,条件付きおよび条件付き画像生成の様々なベンチマークにおいて,既存のarモデルを上回っている。
また,提案手法は従来のARモデルよりもはるかに高速で,高品質な画像を生成する。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z) - Lightweight Image Codec via Multi-Grid Multi-Block-Size Vector
Quantization (MGBVQ) [37.36588620264085]
画素相関を除去する新しい手法を提案する。
相関関係を長値と短値の相関関係に分解することにより、粗い格子における長距離相関を表現できる。
短距離相関はベクトル量化器の組で効果的に符号化できることを示す。
論文 参考訳(メタデータ) (2022-09-25T04:14:26Z) - MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation [41.029441562130984]
2段階ベクトル量子化(VQ)生成モデルは、高忠実度と高解像度の画像の合成を可能にする。
提案した変調VQGANは、再構成画像の品質を大幅に向上し、高忠実度画像生成を可能にする。
論文 参考訳(メタデータ) (2022-09-19T13:26:51Z) - Hierarchical Residual Learning Based Vector Quantized Variational
Autoencoder for Image Reconstruction and Generation [19.92324010429006]
本稿では,階層的なデータの離散表現を学習するHR-VQVAEと呼ばれる多層変分オートエンコーダを提案する。
画像再構成と生成のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-08-09T06:04:25Z) - Vector Quantized Diffusion Model for Text-to-Image Synthesis [47.09451151258849]
テキスト・画像生成のためのベクトル量子化拡散(VQ-Diffusion)モデルを提案する。
実験の結果,VQ-Diffusion はテキスト・画像生成結果を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-11-29T18:59:46Z) - Hierarchical Conditional Flow: A Unified Framework for Image
Super-Resolution and Image Rescaling [139.25215100378284]
画像SRと画像再スケーリングのための統合フレームワークとして階層的条件フロー(HCFlow)を提案する。
HCFlowは、LR画像と残りの高周波成分の分布を同時にモデル化することにより、HRとLR画像ペア間のマッピングを学習する。
さらに性能を高めるために、知覚的損失やGAN損失などの他の損失と、トレーニングで一般的に使用される負の対数類似損失とを組み合わせる。
論文 参考訳(メタデータ) (2021-08-11T16:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。