論文の概要: Multi-attribute Pizza Generator: Cross-domain Attribute Control with
Conditional StyleGAN
- arxiv url: http://arxiv.org/abs/2110.11830v1
- Date: Fri, 22 Oct 2021 15:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 15:38:49.314238
- Title: Multi-attribute Pizza Generator: Cross-domain Attribute Control with
Conditional StyleGAN
- Title(参考訳): multi-attribute pizza generator:条件付きスタイルガンを用いたクロスドメイン属性制御
- Authors: Fangda Han, Guoyao Hao, Ricardo Guerrero, Vladimir Pavlovic
- Abstract要約: Multi-Atribute Pizza Generator (MPG)は、属性のトリクロトミーから画像を合成するための条件付き生成ニューラルネットワークフレームワークである。
MPGは、現実世界のトレーニングデータで見られるものの範囲を超えて、望ましい材料とビュー属性で、写真リアルなピザ画像を生成することができる。
- 参考スコア(独自算出の注目度): 18.220207668470387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-attribute conditional image generation is a challenging problem in
computervision. We propose Multi-attribute Pizza Generator (MPG), a conditional
Generative Neural Network (GAN) framework for synthesizing images from a
trichotomy of attributes: content, view-geometry, and implicit visual style. We
design MPG by extending the state-of-the-art StyleGAN2, using a new
conditioning technique that guides the intermediate feature maps to learn
multi-scale multi-attribute entangled representationsof controlling attributes.
Because of the complex nature of the multi-attribute image generation problem,
we regularize the image generation by predicting the explicit conditioning
attributes (ingredients and view). To synthesize a pizza image with view
attributesoutside the range of natural training images, we design a CGI pizza
dataset PizzaView using 3D pizza models and employ it to train a view attribute
regressor to regularize the generation process, bridging the real and CGI
training datasets. To verify the efficacy of MPG, we test it on Pizza10, a
carefully annotated multi-ingredient pizza image dataset. MPG can successfully
generate photo-realistic pizza images with desired ingredients and view
attributes, beyond the range of those observed in real-world training data.
- Abstract(参考訳): マルチ属性条件画像生成はコンピュータビジョンにおいて難しい問題である。
属性の3分割から画像を生成するための条件付き生成ニューラルネットワーク(GAN)フレームワークであるMPG(Multi-Atribute Pizza Generator)を提案する。
我々は、中間機能マップを案内する新しい条件付け手法を用いて、最先端のStyleGAN2を拡張してMPGを設計し、マルチスケールなマルチ属性の絡み合った属性表現を学習する。
多属性画像生成問題の複雑な性質から、明示的な条件付け属性(向きと視野)を予測して画像生成を定式化する。
自然学習画像の範囲外でビュー属性を用いたピザイメージを合成するために,3dピザモデルを用いたcgiピザデータセットpizzaviewを設計し,ビュー属性レグレッサーをトレーニングして生成プロセスを規則化し,リアルおよびcgiトレーニングデータセットをブリッジする。
mpgの有効性を検証するために、注意深いマルチ赤みを帯びたピザ画像データセットであるpizza10でテストした。
MPGは、現実世界のトレーニングデータに見られるものの範囲を超えて、望ましい材料とビュー属性で写真リアルピザ画像を生成することができる。
関連論文リスト
- UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization [27.55341255800119]
本稿では,3Dキャラクタを効率的に生成するフレームワークである characterGen を提案する。
変換器ベースで一般化可能なスパースビュー再構成モデルが,我々のアプローチの他のコアコンポーネントである。
複数のポーズやビューでレンダリングされたアニメキャラクタのデータセットをキュレートして,モデルをトレーニングし,評価した。
論文 参考訳(メタデータ) (2024-02-27T05:10:59Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Cluster-guided Image Synthesis with Unconditional Models [41.89334167530054]
本研究は、教師なし方式でよく訓練されたGANを活用することにより、制御可能な画像生成に焦点を当てる。
クラスタ割り当てを条件付けすることで、提案手法は生成された画像の意味クラスを制御することができる。
顔(CelebA-HQとFFHQ)、動物(Imagenet)、オブジェクト(LSUN)に対するアプローチの有効性を,異なる事前学習生成モデルを用いて示す。
論文 参考訳(メタデータ) (2021-12-24T02:18:34Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs [18.220207668470387]
MPG(Multi-ingredient Pizza Generator)は、マルチラベル画像の合成のための条件付き生成ニューラルネットワークフレームワークである。
MPGは、望まれる材料で、フォトリアリスティックなピザ画像を生成することができる。
論文 参考訳(メタデータ) (2020-12-04T19:51:31Z) - MichiGAN: Multi-Input-Conditioned Hair Image Generation for Portrait
Editing [122.82964863607938]
MichiGANはインタラクティブな顔料の毛髪操作のための条件付き画像生成手法である。
我々は, 形状, 構造, 外観, 背景など, 主要毛髪の視覚的要因のすべてをユーザコントロールする。
また,直感的かつ高レベルなユーザ入力を投影することで,髪の直感的な操作を可能にするインタラクティブな肖像画毛髪編集システムを構築した。
論文 参考訳(メタデータ) (2020-10-30T17:59:10Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。