論文の概要: MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs
- arxiv url: http://arxiv.org/abs/2012.02821v1
- Date: Fri, 4 Dec 2020 19:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:52:43.643430
- Title: MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs
- Title(参考訳): MPG:コンディショナルスタイルGANを用いた多機能ピザイメージジェネレータ
- Authors: Fangda Han, Guoyao Hao, Ricardo Guerrero, Vladimir Pavlovic
- Abstract要約: MPG(Multi-ingredient Pizza Generator)は、マルチラベル画像の合成のための条件付き生成ニューラルネットワークフレームワークである。
MPGは、望まれる材料で、フォトリアリスティックなピザ画像を生成することができる。
- 参考スコア(独自算出の注目度): 18.220207668470387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multilabel conditional image generation is a challenging problem in computer
vision. In this work we propose Multi-ingredient Pizza Generator (MPG), a
conditional Generative Neural Network (GAN) framework for synthesizing
multilabel images. We design MPG based on a state-of-the-art GAN structure
called StyleGAN2, in which we develop a new conditioning technique by enforcing
intermediate feature maps to learn scalewise label information. Because of the
complex nature of the multilabel image generation problem, we also regularize
synthetic image by predicting the corresponding ingredients as well as
encourage the discriminator to distinguish between matched image and mismatched
image. To verify the efficacy of MPG, we test it on Pizza10, which is a
carefully annotated multi-ingredient pizza image dataset. MPG can successfully
generate photo-realist pizza images with desired ingredients. The framework can
be easily extend to other multilabel image generation scenarios.
- Abstract(参考訳): マルチラベル条件画像生成はコンピュータビジョンにおいて難しい問題である。
本研究では,マルチラベル画像合成のための条件付き生成ニューラルネットワーク(gan)フレームワークであるmulti-ingredient pizza generator (mpg)を提案する。
そこで我々は,mpgをstylegan2と呼ばれる最先端のgan構造に基づいて設計し,中間的特徴マップを強制してスケールワイズラベル情報を学習する新しい条件付け手法を開発した。
また, マルチラベル画像生成問題の複雑な性質から, 対応する成分を予測して合成画像を正規化するとともに, マッチング画像と不一致画像との区別を促す。
MPGの有効性を検証するために、慎重に注釈付けされた多言語ピザ画像データセットであるPizza10で試した。
MPGは、望まれる材料で、フォトリアリスティックなピザ画像を生成することができる。
このフレームワークは他のマルチラベル画像生成シナリオにも容易に拡張できる。
関連論文リスト
- GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for
Multi-Label Image Recognition [38.61502500641192]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。
我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。
実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文 参考訳(メタデータ) (2023-08-28T07:50:04Z) - Progressive Energy-Based Cooperative Learning for Multi-Domain
Image-to-Image Translation [53.682651509759744]
マルチドメイン画像・画像翻訳のための新しいエネルギーベース協調学習フレームワークについて検討する。
フレームワークは、ディスクリプタ、トランスレータ、スタイルエンコーダ、スタイルジェネレータの4つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-06-26T06:34:53Z) - MontageGAN: Generation and Assembly of Multiple Components by GANs [11.117357750374035]
我々は,多層画像を生成するための生成Adversarial NetworksフレームワークであるMontageGANを提案する。
提案手法は,局所的なGANとグローバルなGANからなる2段階のアプローチを用いた。
論文 参考訳(メタデータ) (2022-05-31T07:34:19Z) - Spatially Multi-conditional Image Generation [80.04130168156792]
本稿では,マルチ条件画像生成の問題に対処する新しいニューラルアーキテクチャを提案する。
提案手法は, 利用可能なラベルを入力トークンとして受信する, 画素単位のトランスフォーマー型アーキテクチャを用いる。
3つのベンチマークデータセットに対する実験により,提案手法の最先端および比較ベースラインに対する明らかな優位性を示した。
論文 参考訳(メタデータ) (2022-03-25T17:57:13Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - Multi-attribute Pizza Generator: Cross-domain Attribute Control with
Conditional StyleGAN [18.220207668470387]
Multi-Atribute Pizza Generator (MPG)は、属性のトリクロトミーから画像を合成するための条件付き生成ニューラルネットワークフレームワークである。
MPGは、現実世界のトレーニングデータで見られるものの範囲を超えて、望ましい材料とビュー属性で、写真リアルなピザ画像を生成することができる。
論文 参考訳(メタデータ) (2021-10-22T15:07:06Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Progressively Unfreezing Perceptual GAN [28.330940021951438]
画像生成にはGAN(Generative Adversarial Network)が広く用いられているが、生成した画像はテクスチャの詳細が欠如している。
本稿では,テクスチャの細かい画像を生成するための一般的なフレームワークであるProgressively Unfreezing Perceptual GAN(PUPGAN)を提案する。
論文 参考訳(メタデータ) (2020-06-18T03:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。