論文の概要: Semantic Image Synthesis with Unconditional Generator
- arxiv url: http://arxiv.org/abs/2402.14395v1
- Date: Thu, 22 Feb 2024 09:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:55:31.881705
- Title: Semantic Image Synthesis with Unconditional Generator
- Title(参考訳): 非条件生成器を用いた意味画像合成
- Authors: Jungwoo Chae, Hyunin Cho, Sooyeon Go, Kyungmook Choi, Youngjung Uh
- Abstract要約: 本稿では,事前訓練した非条件生成器を用いて,プロキシマスクに従って特徴マップを再構成することを提案する。
プロキシマスクは、単純なクラスタリングによってジェネレータ内のランダムサンプルの特徴マップから作成される。
提案手法は,実画像の自由な空間編集,スケッチ・ツー・フォト,スクリブル・ツー・フォトなど,様々な用途に応用できる。
- 参考スコア(独自算出の注目度): 8.65146533481257
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semantic image synthesis (SIS) aims to generate realistic images that match
given semantic masks. Despite recent advances allowing high-quality results and
precise spatial control, they require a massive semantic segmentation dataset
for training the models. Instead, we propose to employ a pre-trained
unconditional generator and rearrange its feature maps according to proxy
masks. The proxy masks are prepared from the feature maps of random samples in
the generator by simple clustering. The feature rearranger learns to rearrange
original feature maps to match the shape of the proxy masks that are either
from the original sample itself or from random samples. Then we introduce a
semantic mapper that produces the proxy masks from various input conditions
including semantic masks. Our method is versatile across various applications
such as free-form spatial editing of real images, sketch-to-photo, and even
scribble-to-photo. Experiments validate advantages of our method on a range of
datasets: human faces, animal faces, and buildings.
- Abstract(参考訳): セマンティック画像合成(SIS)は、与えられたセマンティックマスクにマッチする現実的な画像を生成することを目的としている。
高品質な結果と正確な空間制御を可能にする最近の進歩にもかかわらず、モデルのトレーニングには大量のセマンティクスセグメンテーションデータセットが必要である。
代わりに,事前学習した無条件生成器を使用し,プロキシマスクによる特徴マップの再構成を提案する。
プロキシマスクは、単純なクラスタリングによってジェネレータ内のランダムサンプルの特徴マップから作成される。
特徴再構成器は、元の特徴マップをアレンジして、元のサンプル自身から、あるいはランダムなサンプルから、プロキシマスクの形状にマッチさせる。
次に、セマンティックマスクを含む様々な入力条件からプロキシマスクを生成するセマンティックマッパーを提案する。
提案手法は,実画像の自由な空間編集,スケッチ・ツー・フォト,スクリブル・ツー・フォトなど,様々な用途に応用できる。
実験は、人間の顔、動物の顔、建物など、さまざまなデータセット上で、我々の方法の利点を検証する。
関連論文リスト
- MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - Pre-training with Random Orthogonal Projection Image Modeling [32.667183132025094]
Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。
ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
論文 参考訳(メタデータ) (2023-10-28T15:42:07Z) - Automatic Generation of Semantic Parts for Face Image Synthesis [7.728916126705043]
セグメンテーションマスクにおけるオブジェクトクラスの形状を自動操作または生成する問題に対処するネットワークアーキテクチャについて述べる。
提案モデルでは,各クラス埋め込みを独立して編集可能な潜在空間にマスクのクラスワイズを埋め込むことができる。
本稿では,Celeb-MaskHQデータセットの定量的および定性的な結果について報告する。
論文 参考訳(メタデータ) (2023-07-11T15:01:42Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - Semantic-guided Multi-Mask Image Harmonization [10.27974860479791]
セマンティック誘導型マルチマスク画像調和タスクを提案する。
本研究では,一連のオペレーターマスクを予測することにより,不調和な画像を編集する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-07-24T11:48:49Z) - SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches [95.45728042499836]
マスクレス局所画像操作という,スケッチに基づく画像操作の新しいパラダイムを提案する。
本モデルでは,対象の修正領域を自動的に予測し,構造型ベクトルにエンコードする。
ジェネレータは、スタイルベクトルとスケッチに基づいて、新しいイメージコンテンツを合成する。
論文 参考訳(メタデータ) (2021-11-30T02:42:31Z) - Few-shot Semantic Image Synthesis Using StyleGAN Prior [8.528384027684192]
本稿では,STYPEGANを用いたセマンティックマスクの擬似ラベリングを行うトレーニング戦略を提案する。
私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。
擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。
論文 参考訳(メタデータ) (2021-03-27T11:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。