論文の概要: Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects
- arxiv url: http://arxiv.org/abs/2006.12150v3
- Date: Thu, 15 Jul 2021 21:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:23:28.837507
- Title: Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects
- Title(参考訳): 複数のコヒーレントオブジェクトを含むアノテーション付き高忠実画像の生成
- Authors: Bryan G. Cardenas, Devanshu Arya, Deepak K. Gupta
- Abstract要約: コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
- 参考スコア(独自算出の注目度): 10.783993190686132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments related to generative models have made it possible to
generate diverse high-fidelity images. In particular, layout-to-image
generation models have gained significant attention due to their capability to
generate realistic complex images containing distinct objects. These models are
generally conditioned on either semantic layouts or textual descriptions.
However, unlike natural images, providing auxiliary information can be
extremely hard in domains such as biomedical imaging and remote sensing. In
this work, we propose a multi-object generation framework that can synthesize
images with multiple objects without explicitly requiring their contextual
information during the generation process. Based on a vector-quantized
variational autoencoder (VQ-VAE) backbone, our model learns to preserve spatial
coherency within an image as well as semantic coherency between the objects and
the background through two powerful autoregressive priors: PixelSNAIL and
LayoutPixelSNAIL. While the PixelSNAIL learns the distribution of the latent
encodings of the VQ-VAE, the LayoutPixelSNAIL is used to specifically learn the
semantic distribution of the objects. An implicit advantage of our approach is
that the generated samples are accompanied by object-level annotations. We
demonstrate how coherency and fidelity are preserved with our method through
experiments on the Multi-MNIST and CLEVR datasets; thereby outperforming
state-of-the-art multi-object generative methods. The efficacy of our approach
is demonstrated through application on medical imaging datasets, where we show
that augmenting the training set with generated samples using our approach
improves the performance of existing models.
- Abstract(参考訳): 生成モデルに関する最近の進歩により、多彩な高忠実度画像の生成が可能になった。
特に、異なるオブジェクトを含む現実的な複雑な画像を生成する能力により、レイアウト・画像生成モデルに大きな注目を集めている。
これらのモデルは一般的にセマンティックレイアウトまたはテキスト記述に条件付けされる。
しかし、自然画像とは異なり、補助情報の提供は生体画像やリモートセンシングといった分野において極めて困難である。
本研究では,生成プロセス中にコンテキスト情報を明示的に必要とせずに,複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
ベクトル量子化変分オートエンコーダ(VQ-VAE)のバックボーンをベースとして,PixelSNAILとLayoutPixelSNAILの2つの強力な自己回帰前処理により,画像内の空間的コヒーレンシとオブジェクトと背景間のセマンティックコヒーレンシを維持することを学ぶ。
PixelSNAILはVQ-VAEの潜在エンコーディングの分布を学習するが、LayoutPixelSNAILはオブジェクトのセマンティックな分布を特に学習するために使用される。
このアプローチの暗黙の利点は、生成されたサンプルにはオブジェクトレベルのアノテーションが伴っていることです。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
本手法の有効性を医用画像データセットに適用して実証し,本手法を用いて生成されたサンプルを用いたトレーニングセットの強化により既存モデルの性能が向上することを示す。
関連論文リスト
- ObjBlur: A Curriculum Learning Approach With Progressive Object-Level Blurring for Improved Layout-to-Image Generation [7.645341879105626]
レイアウト・ツー・イメージ生成モデルを改善するための新しいカリキュラム学習手法であるBlurを提案する。
提案手法は,プログレッシブオブジェクトレベルのぼかしをベースとして,トレーニングを効果的に安定化し,生成画像の品質を向上させる。
論文 参考訳(メタデータ) (2024-04-11T08:50:12Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - VAE-Info-cGAN: Generating Synthetic Images by Combining Pixel-level and
Feature-level Geospatial Conditional Inputs [0.0]
画素レベル(PLC)と特徴レベル(FLC)を同時に条件付けした意味的リッチな画像を合成するための条件生成モデルを提案する。
GPSデータセットを用いた実験では,提案モデルが地理的に異なる場所にまたがる様々な形態のマクロアグリゲーションを正確に生成できることが示されている。
論文 参考訳(メタデータ) (2020-12-08T03:46:19Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。