論文の概要: CookGAN: Meal Image Synthesis from Ingredients
- arxiv url: http://arxiv.org/abs/2002.11493v1
- Date: Tue, 25 Feb 2020 00:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:55:32.867972
- Title: CookGAN: Meal Image Synthesis from Ingredients
- Title(参考訳): CookGAN: 食品からの食事画像合成
- Authors: Fangda Han, Ricardo Guerrero, Vladimir Pavlovic
- Abstract要約: 生成深度モデルに基づく新しい計算フレームワークを提案し,その成分のテキストリストから写真リアルな食品食のイメージを合成する。
CookGANは、注意に基づく材料イメージアソシエーションモデルを構築し、食事画像の合成を行う生成ニューラルネットワークの条件付けに使用される。
- 参考スコア(独自算出の注目度): 24.295634252929112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we propose a new computational framework, based on generative
deep models, for synthesis of photo-realistic food meal images from textual
list of its ingredients. Previous works on synthesis of images from text
typically rely on pre-trained text models to extract text features, followed by
generative neural networks (GAN) aimed to generate realistic images conditioned
on the text features. These works mainly focus on generating spatially compact
and well-defined categories of objects, such as birds or flowers, but meal
images are significantly more complex, consisting of multiple ingredients whose
appearance and spatial qualities are further modified by cooking methods. To
generate real-like meal images from ingredients, we propose Cook Generative
Adversarial Networks (CookGAN), CookGAN first builds an attention-based
ingredients-image association model, which is then used to condition a
generative neural network tasked with synthesizing meal images. Furthermore, a
cycle-consistent constraint is added to further improve image quality and
control appearance. Experiments show our model is able to generate meal images
corresponding to the ingredients.
- Abstract(参考訳): 本研究では, 生成深度モデルに基づく新しい計算手法を提案し, その成分のテキストリストからフォトリアリスティック食品食のイメージを合成する。
テキストからの画像合成に関する以前の研究は、テキストの特徴を抽出するために予め訓練されたテキストモデルに依存しているのが一般的であり、その後、テキストの特徴に基づいた現実的な画像を生成するための生成ニューラルネットワーク(gan)が続く。
これらの作品は、主に鳥や花などの空間的にコンパクトでよく定義された対象のカテゴリーを作成することに重点を置いているが、料理法によって外観と空間的性質がさらに変化する複数の材料からなる食事画像は、はるかに複雑である。
具材から実物のような食事画像を生成するために、クックガンはまず注意に基づく食材関連モデルを構築し、その後、食事画像の合成に携わる生成ニューラルネットの条件付けを行う。
さらに、画像品質と制御外観をさらに向上させるために、サイクル一貫性制約を追加する。
実験により,本モデルが材料に対応する食事画像を生成することを示す。
関連論文リスト
- Deep Image-to-Recipe Translation [0.0]
Deep Image-to-Recipe Translation(ディープ・イメージ・ツー・レシピ・トランスレーション)は、鮮やかな食品記憶と料理作りの技法のギャップを埋めることを目的としている。
我々の主な目的は、所定の食品画像から成分を予測することである。
我々のアプローチは、正確性だけで誤解を招く可能性のあるシナリオにおいて、IoU(Intersection over Union)やF1スコアのようなメトリクスの重要性を強調します。
論文 参考訳(メタデータ) (2024-07-01T02:33:07Z) - FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - Learning Structural Representations for Recipe Generation and Food
Retrieval [101.97397967958722]
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-04T06:36:31Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in
shared subspace [21.33710150033949]
本稿では,食品画像からレシピへの検索問題に対処するために,共有サブスペース学習のためのシンプルで斬新なアーキテクチャを提案する。
公開Recipe1Mデータセットの実験的解析により,提案手法を用いて学習した部分空間が,現在の最先端技術よりも優れていることが示された。
学習した部分空間の表現力を示すために,レシピの埋め込みを前提とした生成食品画像合成モデルを提案する。
論文 参考訳(メタデータ) (2020-12-02T17:27:00Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z) - Decomposing Generation Networks with Structure Prediction for Recipe
Generation [142.047662926209]
本稿では,構造予測を伴うDGN(Decomposing Generation Networks)を提案する。
具体的には,調理指導を複数のフェーズに分割し,各フェーズに異なるサブジェネレータを割り当てる。
提案手法は, (i) 大域的構造予測成分を用いてレシピ構造を学習し, (ii) 予測された構造に基づいてサブジェネレータ出力成分でレシピ相を生成するという2つの新しいアイデアを含む。
論文 参考訳(メタデータ) (2020-07-27T08:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。