論文の概要: MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs
- arxiv url: http://arxiv.org/abs/2012.02821v1
- Date: Fri, 4 Dec 2020 19:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:52:43.643430
- Title: MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs
- Title(参考訳): MPG:コンディショナルスタイルGANを用いた多機能ピザイメージジェネレータ
- Authors: Fangda Han, Guoyao Hao, Ricardo Guerrero, Vladimir Pavlovic
- Abstract要約: MPG(Multi-ingredient Pizza Generator)は、マルチラベル画像の合成のための条件付き生成ニューラルネットワークフレームワークである。
MPGは、望まれる材料で、フォトリアリスティックなピザ画像を生成することができる。
- 参考スコア(独自算出の注目度): 18.220207668470387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multilabel conditional image generation is a challenging problem in computer
vision. In this work we propose Multi-ingredient Pizza Generator (MPG), a
conditional Generative Neural Network (GAN) framework for synthesizing
multilabel images. We design MPG based on a state-of-the-art GAN structure
called StyleGAN2, in which we develop a new conditioning technique by enforcing
intermediate feature maps to learn scalewise label information. Because of the
complex nature of the multilabel image generation problem, we also regularize
synthetic image by predicting the corresponding ingredients as well as
encourage the discriminator to distinguish between matched image and mismatched
image. To verify the efficacy of MPG, we test it on Pizza10, which is a
carefully annotated multi-ingredient pizza image dataset. MPG can successfully
generate photo-realist pizza images with desired ingredients. The framework can
be easily extend to other multilabel image generation scenarios.
- Abstract(参考訳): マルチラベル条件画像生成はコンピュータビジョンにおいて難しい問題である。
本研究では,マルチラベル画像合成のための条件付き生成ニューラルネットワーク(gan)フレームワークであるmulti-ingredient pizza generator (mpg)を提案する。
そこで我々は,mpgをstylegan2と呼ばれる最先端のgan構造に基づいて設計し,中間的特徴マップを強制してスケールワイズラベル情報を学習する新しい条件付け手法を開発した。
また, マルチラベル画像生成問題の複雑な性質から, 対応する成分を予測して合成画像を正規化するとともに, マッチング画像と不一致画像との区別を促す。
MPGの有効性を検証するために、慎重に注釈付けされた多言語ピザ画像データセットであるPizza10で試した。
MPGは、望まれる材料で、フォトリアリスティックなピザ画像を生成することができる。
このフレームワークは他のマルチラベル画像生成シナリオにも容易に拡張できる。
関連論文リスト
- LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。
本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。
Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z) - GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition [37.02054260449195]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。
我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。
実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文 参考訳(メタデータ) (2023-08-28T07:50:04Z) - Progressive Energy-Based Cooperative Learning for Multi-Domain
Image-to-Image Translation [53.682651509759744]
マルチドメイン画像・画像翻訳のための新しいエネルギーベース協調学習フレームワークについて検討する。
フレームワークは、ディスクリプタ、トランスレータ、スタイルエンコーダ、スタイルジェネレータの4つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-06-26T06:34:53Z) - MontageGAN: Generation and Assembly of Multiple Components by GANs [11.117357750374035]
我々は,多層画像を生成するための生成Adversarial NetworksフレームワークであるMontageGANを提案する。
提案手法は,局所的なGANとグローバルなGANからなる2段階のアプローチを用いた。
論文 参考訳(メタデータ) (2022-05-31T07:34:19Z) - Spatially Multi-conditional Image Generation [80.04130168156792]
本稿では,マルチ条件画像生成の問題に対処する新しいニューラルアーキテクチャを提案する。
提案手法は, 利用可能なラベルを入力トークンとして受信する, 画素単位のトランスフォーマー型アーキテクチャを用いる。
3つのベンチマークデータセットに対する実験により,提案手法の最先端および比較ベースラインに対する明らかな優位性を示した。
論文 参考訳(メタデータ) (2022-03-25T17:57:13Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - Multi-attribute Pizza Generator: Cross-domain Attribute Control with
Conditional StyleGAN [18.220207668470387]
Multi-Atribute Pizza Generator (MPG)は、属性のトリクロトミーから画像を合成するための条件付き生成ニューラルネットワークフレームワークである。
MPGは、現実世界のトレーニングデータで見られるものの範囲を超えて、望ましい材料とビュー属性で、写真リアルなピザ画像を生成することができる。
論文 参考訳(メタデータ) (2021-10-22T15:07:06Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Progressively Unfreezing Perceptual GAN [28.330940021951438]
画像生成にはGAN(Generative Adversarial Network)が広く用いられているが、生成した画像はテクスチャの詳細が欠如している。
本稿では,テクスチャの細かい画像を生成するための一般的なフレームワークであるProgressively Unfreezing Perceptual GAN(PUPGAN)を提案する。
論文 参考訳(メタデータ) (2020-06-18T03:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。