論文の概要: Designing a Better Asymmetric VQGAN for StableDiffusion
- arxiv url: http://arxiv.org/abs/2306.04632v1
- Date: Wed, 7 Jun 2023 17:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:02:47.296347
- Title: Designing a Better Asymmetric VQGAN for StableDiffusion
- Title(参考訳): 安定拡散のためのより良い非対称vqganの設計
- Authors: Zixin Zhu and Xuelu Feng and Dongdong Chen and Jianmin Bao and Le Wang
and Yinpeng Chen and Lu Yuan and Gang Hua
- Abstract要約: 革命的なテキスト・ツー・イメージ生成器であるStableDiffusionは、VQGANを介して潜時空間の拡散モデルを学ぶ。
2つの単純な設計を持つ新しい非対称VQGANを提案する。
StableDiffusionベースの塗り絵やローカル編集手法で広く用いられる。
- 参考スコア(独自算出の注目度): 73.21783102003398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: StableDiffusion is a revolutionary text-to-image generator that is causing a
stir in the world of image generation and editing. Unlike traditional methods
that learn a diffusion model in pixel space, StableDiffusion learns a diffusion
model in the latent space via a VQGAN, ensuring both efficiency and quality. It
not only supports image generation tasks, but also enables image editing for
real images, such as image inpainting and local editing. However, we have
observed that the vanilla VQGAN used in StableDiffusion leads to significant
information loss, causing distortion artifacts even in non-edited image
regions. To this end, we propose a new asymmetric VQGAN with two simple
designs. Firstly, in addition to the input from the encoder, the decoder
contains a conditional branch that incorporates information from task-specific
priors, such as the unmasked image region in inpainting. Secondly, the decoder
is much heavier than the encoder, allowing for more detailed recovery while
only slightly increasing the total inference cost. The training cost of our
asymmetric VQGAN is cheap, and we only need to retrain a new asymmetric decoder
while keeping the vanilla VQGAN encoder and StableDiffusion unchanged. Our
asymmetric VQGAN can be widely used in StableDiffusion-based inpainting and
local editing methods. Extensive experiments demonstrate that it can
significantly improve the inpainting and editing performance, while maintaining
the original text-to-image capability. The code is available at
\url{https://github.com/buxiangzhiren/Asymmetric_VQGAN}.
- Abstract(参考訳): StableDiffusionは、画像生成と編集の世界で、革命的なテキストから画像へのジェネレータだ。
ピクセル空間で拡散モデルを学習する従来の方法とは異なり、stablediffusionはvqganを介して潜在空間における拡散モデルを学習し、効率と品質の両方を保証する。
画像生成タスクをサポートするだけでなく、画像インペインティングやローカル編集といった実際の画像に対する画像編集も可能にする。
しかし,StableDiffusionで使用するバニラVQGANは大きな情報損失をもたらし,非編集画像領域においても歪みを生じさせることがわかった。
この目的のために, 2つの単純な設計を持つ新しい非対称vqganを提案する。
第一に、エンコーダからの入力に加えて、デコーダは、塗装中の未マッピング画像領域などのタスク固有の先行情報を含む条件分岐を含む。
第二に、デコーダはエンコーダよりもはるかに重いため、より詳細なリカバリが可能であり、全体の推論コストはわずかに増加している。
非対称なVQGANのトレーニングコストは安価で、バニラVQGANエンコーダとStableDiffusionをそのまま保ちながら、新しい非対称なデコーダを再トレーニングする必要がある。
非対称vqganは安定拡散型インパインティングおよび局所編集法で広く使用できる。
大規模な実験により、オリジナルのテキスト・ツー・イメージ機能を維持しながら、塗装性能と編集性能を大幅に改善できることが示されている。
コードは \url{https://github.com/buxiangzhiren/asymmetric_vqgan} で入手できる。
関連論文リスト
- Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。
オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文 参考訳(メタデータ) (2024-04-24T17:59:11Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - StyleRes: Transforming the Residuals for Real Image Editing with
StyleGAN [4.7590051176368915]
実画像をStyleGANの潜伏空間に変換することは、広く研究されている問題である。
画像再構成の忠実さと画像編集の質とのトレードオフは、依然としてオープンな課題である。
高品質な編集による高忠実度画像インバージョンを実現するための新しい画像インバージョンフレームワークとトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-29T16:14:09Z) - High-Fidelity Image Inpainting with GAN Inversion [23.49170140410603]
本稿では,InvertFillと呼ばれる画像インペイントのための新しいGANインバージョンモデルを提案する。
エンコーダ内では、事前変調ネットワークがマルチスケール構造を利用して、より差別的なセマンティクスをスタイルベクトルにエンコードする。
忠実でフォトリアリスティックなイメージを再構築するために、シンプルだが効果的なSoft-update Mean Latentモジュールは、大規模な腐敗のために高忠実なテクスチャを合成する、より多様なドメイン内パターンをキャプチャするように設計されている。
論文 参考訳(メタデータ) (2022-08-25T03:39:24Z) - Diffusion Autoencoders: Toward a Meaningful and Decodable Representation [1.471992435706872]
拡散モデル(DPM)は、GANと競合する画像生成において顕著な品質を実現している。
GANとは異なり、DPMは意味的な意味がなく、他のタスクの有用な表現として機能しない潜在変数のセットを使用する。
本稿では,DPMを用いた表現学習の可能性について検討し,自動符号化による入力画像の有意義でデオード可能な表現の抽出を試みている。
論文 参考訳(メタデータ) (2021-11-30T18:24:04Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。