論文の概要: High-Quality Pluralistic Image Completion via Code Shared VQGAN
- arxiv url: http://arxiv.org/abs/2204.01931v1
- Date: Tue, 5 Apr 2022 01:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:35:08.809769
- Title: High-Quality Pluralistic Image Completion via Code Shared VQGAN
- Title(参考訳): コード共有VQGANによる高画質多元画像補完
- Authors: Chuanxia Zheng and Guoxian Song and Tat-Jen Cham and Jianfei Cai and
Dinh Phung and Linjie Luo
- Abstract要約: 高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
- 参考スコア(独自算出の注目度): 51.7805154545948
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: PICNet pioneered the generation of multiple and diverse results for image
completion task, but it required a careful balance between $\mathcal{KL}$ loss
(diversity) and reconstruction loss (quality), resulting in a limited diversity
and quality . Separately, iGPT-based architecture has been employed to infer
distributions in a discrete space derived from a pixel-level pre-clustered
palette, which however cannot generate high-quality results directly. In this
work, we present a novel framework for pluralistic image completion that can
achieve both high quality and diversity at much faster inference speed. The
core of our design lies in a simple yet effective code sharing mechanism that
leads to a very compact yet expressive image representation in a discrete
latent domain. The compactness and the richness of the representation further
facilitate the subsequent deployment of a transformer to effectively learn how
to composite and complete a masked image at the discrete code domain. Based on
the global context well-captured by the transformer and the available visual
regions, we are able to sample all tokens simultaneously, which is completely
different from the prevailing autoregressive approach of iGPT-based works, and
leads to more than 100$\times$ faster inference speed. Experiments show that
our framework is able to learn semantically-rich discrete codes efficiently and
robustly, resulting in much better image reconstruction quality. Our diverse
image completion framework significantly outperforms the state-of-the-art both
quantitatively and qualitatively on multiple benchmark datasets.
- Abstract(参考訳): PICNetは、画像補完タスクのための多種多様な結果の生成を開拓したが、$\mathcal{KL}$損失(多様性)と復元損失(品質)の間に慎重にバランスを取る必要があり、その結果、多様性と品質が制限された。
別途、igptベースのアーキテクチャは、ピクセルレベルのプリクラスタパレットから派生した離散空間内の分布を推測するために用いられてきたが、高品質な結果を直接生成することはできない。
本稿では,より高速な推定速度で,高品質と多様性を両立できる多元的画像補完のための新しいフレームワークを提案する。
私たちの設計の中核は、非常にコンパクトで表現力に富んだイメージ表現を離散的な潜在ドメインに導く、シンプルで効果的なコード共有メカニズムにあります。
表現のコンパクトさと豊かさにより、変換器のその後の展開が促進され、離散コード領域でマスク画像の合成と完成の方法が効果的に学習される。
変換器と利用可能な視覚領域によって得られたグローバルなコンテキストに基づいて、全てのトークンを同時にサンプリングすることが可能であり、これはiGPTベースの作業の一般的な自己回帰アプローチとは全く異なるものであり、100$\times$高速推論速度をもたらす。
実験により,セマンティックリッチな離散符号を効率的かつロバストに学習できることが示され,画像再構成の品質が向上した。
多様な画像補完フレームワークは、複数のベンチマークデータセット上で、定量的かつ質的に最先端の状態を著しく上回る。
関連論文リスト
- TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Large Scale Image Completion via Co-Modulated Generative Adversarial
Networks [18.312552957727828]
画像条件と最近の非条件生成アーキテクチャのギャップを埋める汎用的な新しいアプローチを提案する。
また,画像補完のための定量的指標が不十分なため,Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)を提案する。
実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。
論文 参考訳(メタデータ) (2021-03-18T17:59:11Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。