論文の概要: Diversifying Semantic Image Synthesis and Editing via Class- and
Layer-wise VAEs
- arxiv url: http://arxiv.org/abs/2106.13416v1
- Date: Fri, 25 Jun 2021 04:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:58:14.446442
- Title: Diversifying Semantic Image Synthesis and Editing via Class- and
Layer-wise VAEs
- Title(参考訳): クラス及び層別VAEによる意味的画像合成と編集の多様化
- Authors: Yuki Endo, Yoshihiro Kanamori
- Abstract要約: 本稿では,ローカルからグローバルレベルの各オブジェクトクラスに対するフレキシブルな制御を可能にする,変動型オートエンコーダフレームワークのクラスおよびレイヤワイズ拡張を提案する。
提案手法は,最先端の手法と比較して,可塑性かつ多彩な画像を生成する。
- 参考スコア(独自算出の注目度): 8.528384027684192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic image synthesis is a process for generating photorealistic images
from a single semantic mask. To enrich the diversity of multimodal image
synthesis, previous methods have controlled the global appearance of an output
image by learning a single latent space. However, a single latent code is often
insufficient for capturing various object styles because object appearance
depends on multiple factors. To handle individual factors that determine object
styles, we propose a class- and layer-wise extension to the variational
autoencoder (VAE) framework that allows flexible control over each object class
at the local to global levels by learning multiple latent spaces. Furthermore,
we demonstrate that our method generates images that are both plausible and
more diverse compared to state-of-the-art methods via extensive experiments
with real and synthetic datasets inthree different domains. We also show that
our method enables a wide range of applications in image synthesis and editing
tasks.
- Abstract(参考訳): セマンティック画像合成は、単一のセマンティックマスクからフォトリアリスティック画像を生成するプロセスである。
マルチモーダル画像合成の多様性を高めるため、従来の手法では1つの潜在空間を学習することで出力画像のグローバル外観を制御する。
しかし、オブジェクトの外観が複数の要因に依存するため、複数のオブジェクトスタイルをキャプチャするには、単一の潜時コードは不十分であることが多い。
オブジェクトのスタイルを決定する個々の要素を扱うため、複数の潜在空間を学習することにより、各オブジェクトクラスをローカルからグローバルレベルまで柔軟に制御できるvaruational autoencoder(vae)フレームワークのクラスおよびレイヤごとに拡張する。
さらに,本手法は3つの異なる領域における実データと合成データを用いた広範囲な実験により,最先端の手法と比較して,多種多様な画像を生成することを実証する。
また,本手法は画像合成や編集作業において幅広い応用が可能となることを示した。
関連論文リスト
- Generative Powers of Ten [60.6740997942711]
本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するために,テキスト・ツー・イメージ・モデルを用いる手法を提案する。
マルチスケール拡散サンプリングを共同で行うことで実現した。
本手法は従来の超解像法よりも深いズームレベルを実現する。
論文 参考訳(メタデータ) (2023-12-04T18:59:25Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Painting 3D Nature in 2D: View Synthesis of Natural Scenes from a Single
Semantic Mask [29.38152100352871]
本稿では,自然シーンの多視点一貫したカラーイメージを合成するために,単一のセマンティックマスクを入力として利用する新しいアプローチを提案する。
提案手法は,様々な自然シーンのベースライン手法より優れ,フォトリアリスティックで多視点一貫した映像を制作する。
論文 参考訳(メタデータ) (2023-02-14T17:57:58Z) - Variation-Aware Semantic Image Synthesis [5.232306238197685]
そこで本研究では,より高いクラス内変動,意味雑音,位置符号を有するVASIS(VASIS)を実現するための2つの簡単な手法を提案する。
我々のモデルでは、より自然な画像が生成され、FIDやmIoUよりも若干良い結果が得られる。
論文 参考訳(メタデータ) (2023-01-25T12:35:17Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Dual Pyramid Generative Adversarial Networks for Semantic Image
Synthesis [94.76988562653845]
セマンティック画像合成の目標は、セマンティックラベルマップからフォトリアリスティック画像を生成することである。
しかし、現在の最先端のアプローチは、さまざまなスケールで画像で現実的なオブジェクトを生成するのに依然として苦労している。
本研究では,空間適応型正規化ブロックの条件付けを各スケールで同時に学習するDual Pyramid Generative Adversarial Network (DP-GAN)を提案する。
論文 参考訳(メタデータ) (2022-10-08T18:45:44Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - Panoptic-based Image Synthesis [32.82903428124024]
条件付き画像合成は、コンテンツ編集からコンテンツ生成への様々な応用を提供する。
本研究では,パノプティカルマップに条件付き高忠実度・光実写画像を生成するために,パノプティカル・アウェア・イメージ合成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-21T20:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。