Fugu-MT 論文翻訳(概要): MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs

論文の概要: MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs

arxiv url: http://arxiv.org/abs/2012.02821v1
Date: Fri, 4 Dec 2020 19:51:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-22 20:52:43.643430
Title: MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs
Title（参考訳）: MPG:コンディショナルスタイルGANを用いた多機能ピザイメージジェネレータ
Authors: Fangda Han, Guoyao Hao, Ricardo Guerrero, Vladimir Pavlovic
Abstract要約: MPG(Multi-ingredient Pizza Generator)は、マルチラベル画像の合成のための条件付き生成ニューラルネットワークフレームワークである。 MPGは、望まれる材料で、フォトリアリスティックなピザ画像を生成することができる。
参考スコア（独自算出の注目度）: 18.220207668470387
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multilabel conditional image generation is a challenging problem in computer vision. In this work we propose Multi-ingredient Pizza Generator (MPG), a conditional Generative Neural Network (GAN) framework for synthesizing multilabel images. We design MPG based on a state-of-the-art GAN structure called StyleGAN2, in which we develop a new conditioning technique by enforcing intermediate feature maps to learn scalewise label information. Because of the complex nature of the multilabel image generation problem, we also regularize synthetic image by predicting the corresponding ingredients as well as encourage the discriminator to distinguish between matched image and mismatched image. To verify the efficacy of MPG, we test it on Pizza10, which is a carefully annotated multi-ingredient pizza image dataset. MPG can successfully generate photo-realist pizza images with desired ingredients. The framework can be easily extend to other multilabel image generation scenarios.
Abstract（参考訳）: マルチラベル条件画像生成はコンピュータビジョンにおいて難しい問題である。本研究では,マルチラベル画像合成のための条件付き生成ニューラルネットワーク(gan)フレームワークであるmulti-ingredient pizza generator (mpg)を提案する。そこで我々は,mpgをstylegan2と呼ばれる最先端のgan構造に基づいて設計し,中間的特徴マップを強制してスケールワイズラベル情報を学習する新しい条件付け手法を開発した。また, マルチラベル画像生成問題の複雑な性質から, 対応する成分を予測して合成画像を正規化するとともに, マッチング画像と不一致画像との区別を促す。 MPGの有効性を検証するために、慎重に注釈付けされた多言語ピザ画像データセットであるPizza10で試した。 MPGは、望まれる材料で、フォトリアリスティックなピザ画像を生成することができる。このフレームワークは他のマルチラベル画像生成シナリオにも容易に拡張できる。

関連論文リスト

Jodi: Unification of Visual Generation and Understanding via Joint Modeling [72.2478082170191]
視覚生成と理解を統一する拡散フレームワークであるJodiを提案する。 Jodiは、ロールスイッチ機構とともに線形拡散変圧器上に構築されている。我々は20万の高品質な画像を含むJoint-1.6Mデータセットを提示する。
論文参考訳（メタデータ） (2025-05-25T10:40:52Z)
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文参考訳（メタデータ） (2025-02-25T16:57:04Z)
LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。 LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文参考訳（メタデータ） (2024-03-18T16:28:28Z)
Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。 Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文参考訳（メタデータ） (2023-10-04T17:28:44Z)
GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition [37.02054260449195]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文参考訳（メタデータ） (2023-08-28T07:50:04Z)
Progressive Energy-Based Cooperative Learning for Multi-Domain Image-to-Image Translation [53.682651509759744]
マルチドメイン画像・画像翻訳のための新しいエネルギーベース協調学習フレームワークについて検討する。フレームワークは、ディスクリプタ、トランスレータ、スタイルエンコーダ、スタイルジェネレータの4つのコンポーネントで構成されている。
論文参考訳（メタデータ） (2023-06-26T06:34:53Z)
MontageGAN: Generation and Assembly of Multiple Components by GANs [11.117357750374035]
我々は,多層画像を生成するための生成Adversarial NetworksフレームワークであるMontageGANを提案する。提案手法は,局所的なGANとグローバルなGANからなる2段階のアプローチを用いた。
論文参考訳（メタデータ） (2022-05-31T07:34:19Z)
Spatially Multi-conditional Image Generation [80.04130168156792]
本稿では,マルチ条件画像生成の問題に対処する新しいニューラルアーキテクチャを提案する。提案手法は, 利用可能なラベルを入力トークンとして受信する, 画素単位のトランスフォーマー型アーキテクチャを用いる。 3つのベンチマークデータセットに対する実験により,提案手法の最先端および比較ベースラインに対する明らかな優位性を示した。
論文参考訳（メタデータ） (2022-03-25T17:57:13Z)
Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文参考訳（メタデータ） (2021-11-05T12:57:50Z)
Multi-attribute Pizza Generator: Cross-domain Attribute Control with Conditional StyleGAN [18.220207668470387]
Multi-Atribute Pizza Generator (MPG)は、属性のトリクロトミーから画像を合成するための条件付き生成ニューラルネットワークフレームワークである。 MPGは、現実世界のトレーニングデータで見られるものの範囲を超えて、望ましい材料とビュー属性で、写真リアルなピザ画像を生成することができる。
論文参考訳（メタデータ） (2021-10-22T15:07:06Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)
Progressively Unfreezing Perceptual GAN [28.330940021951438]
画像生成にはGAN(Generative Adversarial Network)が広く用いられているが、生成した画像はテクスチャの詳細が欠如している。本稿では,テクスチャの細かい画像を生成するための一般的なフレームワークであるProgressively Unfreezing Perceptual GAN(PUPGAN)を提案する。
論文参考訳（メタデータ） (2020-06-18T03:12:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。