論文の概要: Few-shot Semantic Image Synthesis Using StyleGAN Prior
- arxiv url: http://arxiv.org/abs/2103.14877v1
- Date: Sat, 27 Mar 2021 11:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:41:27.997481
- Title: Few-shot Semantic Image Synthesis Using StyleGAN Prior
- Title(参考訳): stylegan priorを用いた数発意味画像合成
- Authors: Yuki Endo and Yoshihiro Kanamori
- Abstract要約: 本稿では,STYPEGANを用いたセマンティックマスクの擬似ラベリングを行うトレーニング戦略を提案する。
私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。
擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。
- 参考スコア(独自算出の注目度): 8.528384027684192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles a challenging problem of generating photorealistic images
from semantic layouts in few-shot scenarios where annotated training pairs are
hardly available but pixel-wise annotation is quite costly. We present a
training strategy that performs pseudo labeling of semantic masks using the
StyleGAN prior. Our key idea is to construct a simple mapping between the
StyleGAN feature and each semantic class from a few examples of semantic masks.
With such mappings, we can generate an unlimited number of pseudo semantic
masks from random noise to train an encoder for controlling a pre-trained
StyleGAN generator. Although the pseudo semantic masks might be too coarse for
previous approaches that require pixel-aligned masks, our framework can
synthesize high-quality images from not only dense semantic masks but also
sparse inputs such as landmarks and scribbles. Qualitative and quantitative
results with various datasets demonstrate improvement over previous approaches
with respect to layout fidelity and visual quality in as few as one- or
five-shot settings.
- Abstract(参考訳): 本稿では,注釈付きトレーニングペアがほとんど利用できないが画素単位のアノテーションは非常にコストがかかる場合の,セマンティックレイアウトからフォトリアリスティック画像を生成するという課題に対処する。
本稿では,semantic maskの擬似ラベル付けを行うトレーニング戦略を提案する。
私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。
このようなマッピングにより、ランダムノイズから無数の擬似セマンティックマスクを生成し、事前学習されたStyleGANジェネレータを制御するエンコーダを訓練することができる。
擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。
様々なデータセットによる定性的かつ定量的な結果は、レイアウトの忠実度や視覚的品質に関して、1ショットまたは5ショットの設定で以前のアプローチよりも改善されている。
関連論文リスト
- Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting [8.572133295533643]
本稿では,離散潜在符号の生成枠組みに基づく大規模マスク多元画像の描画手法を提案する。
本手法は,画像の可視な場所でのみ計算を行うことで,トークンとして識別された遅延先行を学習する。
論文 参考訳(メタデータ) (2024-03-27T01:28:36Z) - Semantic Image Synthesis with Unconditional Generator [8.65146533481257]
本稿では,事前訓練した非条件生成器を用いて,プロキシマスクに従って特徴マップを再構成することを提案する。
プロキシマスクは、単純なクラスタリングによってジェネレータ内のランダムサンプルの特徴マップから作成される。
提案手法は,実画像の自由な空間編集,スケッチ・ツー・フォト,スクリブル・ツー・フォトなど,様々な用途に応用できる。
論文 参考訳(メタデータ) (2024-02-22T09:10:28Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Automatic Generation of Semantic Parts for Face Image Synthesis [7.728916126705043]
セグメンテーションマスクにおけるオブジェクトクラスの形状を自動操作または生成する問題に対処するネットワークアーキテクチャについて述べる。
提案モデルでは,各クラス埋め込みを独立して編集可能な潜在空間にマスクのクラスワイズを埋め込むことができる。
本稿では,Celeb-MaskHQデータセットの定量的および定性的な結果について報告する。
論文 参考訳(メタデータ) (2023-07-11T15:01:42Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - Semantic-guided Multi-Mask Image Harmonization [10.27974860479791]
セマンティック誘導型マルチマスク画像調和タスクを提案する。
本研究では,一連のオペレーターマスクを予測することにより,不調和な画像を編集する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-07-24T11:48:49Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。