論文の概要: Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization
- arxiv url: http://arxiv.org/abs/2305.11718v1
- Date: Fri, 19 May 2023 14:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:58:23.647813
- Title: Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization
- Title(参考訳): 高精度画像符号化に向けて:動的ベクトル量子化による自己回帰画像生成の改善
- Authors: Mengqi Huang, Zhendong Mao, Zhuowei Chen, Yongdong Zhang
- Abstract要約: 既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
- 参考スコア(独自算出の注目度): 73.52943587514386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vector quantization (VQ) based autoregressive models follow a
two-stage generation paradigm that first learns a codebook to encode images as
discrete codes, and then completes generation based on the learned codebook.
However, they encode fixed-size image regions into fixed-length codes and
ignore their naturally different information densities, which results in
insufficiency in important regions and redundancy in unimportant ones, and
finally degrades the generation quality and speed. Moreover, the fixed-length
coding leads to an unnatural raster-scan autoregressive generation. To address
the problem, we propose a novel two-stage framework: (1) Dynamic-Quantization
VAE (DQ-VAE) which encodes image regions into variable-length codes based on
their information densities for an accurate and compact code representation.
(2) DQ-Transformer which thereby generates images autoregressively from
coarse-grained (smooth regions with fewer codes) to fine-grained (details
regions with more codes) by modeling the position and content of codes in each
granularity alternately, through a novel stacked-transformer architecture and
shared-content, non-shared position input layers designs. Comprehensive
experiments on various generation tasks validate our superiorities in both
effectiveness and efficiency. Code will be released at
https://github.com/CrossmodalGroup/DynamicVectorQuantization.
- Abstract(参考訳): 既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従い、まずコードブックを学習し、画像を離散コードとしてエンコードし、学習したコードブックに基づいて生成を完了する。
しかし、固定サイズの画像領域を固定長符号にエンコードし、それらの自然に異なる情報密度を無視し、重要な領域の不足と重要でない領域の冗長性を生じさせ、最終的に生成品質と速度を低下させる。
さらに、固定長符号は不自然なラスタースキャン自己回帰生成につながる。
そこで本稿では,(1)画像領域を可変長符号にエンコードする動的量子化vae (dq-vae) を,その情報密度に基づいて高精度でコンパクトなコード表現のために提案する。
2) 粗粒度(符号数が少ないスムース領域)から粗粒度(符号数の多い領域)へ自己回帰的に画像を生成するdq変換器は,新しいスタック変換アーキテクチャと共有コンテント非共有位置入力層設計により,各粒度における符号の位置と内容を交互にモデル化する。
様々な生成タスクに関する総合的な実験は、有効性と効率の両方において、我々の優位性を検証する。
コードはhttps://github.com/CrossmodalGroup/DynamicVectorQuantizationでリリースされる。
関連論文リスト
- HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - SC-VAE: Sparse Coding-based Variational Autoencoder with Learned ISTA [0.6770292596301478]
そこで本研究では,ISTA (SC-VAE) を用いたスパース符号化に基づくVAEを新たに導入し,スパース符号化を可変オートエンコーダフレームワークに統合する。
2つの画像データセットに対する実験により、我々のモデルは、最先端の手法と比較して、画像再構成結果の改善を実現していることが示された。
論文 参考訳(メタデータ) (2023-03-29T13:18:33Z) - MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation [41.029441562130984]
2段階ベクトル量子化(VQ)生成モデルは、高忠実度と高解像度の画像の合成を可能にする。
提案した変調VQGANは、再構成画像の品質を大幅に向上し、高忠実度画像生成を可能にする。
論文 参考訳(メタデータ) (2022-09-19T13:26:51Z) - Style Transformer for Image Inversion and Editing [35.45674653596084]
既存のGANインバージョン手法では、信頼性の高い再構築とフレキシブルな編集のための遅延コードを提供できない。
本稿では,事前学習したStyleGANに対して,トランスフォーマーを用いた画像インバージョンと編集モデルを提案する。
提案モデルでは、CNNエンコーダを用いて、キーと値としてマルチスケールの画像特徴を提供する。
論文 参考訳(メタデータ) (2022-03-15T14:16:57Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z) - Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文 参考訳(メタデータ) (2020-04-02T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。