論文の概要: CookingDiffusion: Cooking Procedural Image Generation with Stable Diffusion
- arxiv url: http://arxiv.org/abs/2501.09042v2
- Date: Sun, 09 Feb 2025 15:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:26:27.962422
- Title: CookingDiffusion: Cooking Procedural Image Generation with Stable Diffusion
- Title(参考訳): 調理拡散:安定拡散によるプロシージャ画像生成
- Authors: Yuan Wang, Bin Zhu, Yanbin Hao, Chong-Wah Ngo, Yi Tan, Xiang Wang,
- Abstract要約: textbfCookingDiffusionは,調理工程のリアルな画像を生成する新しい手法である。
これらのプロンプトは、テキストプロンプト、画像プロンプト、マルチモーダルプロンプトを含み、一貫したプロシージャ画像の生成を保証する。
実験結果から, 高品質な調理用プロシージャ画像の生成に優れたモデルが得られた。
- 参考スコア(独自算出の注目度): 58.92430755180394
- License:
- Abstract: Recent advancements in text-to-image generation models have excelled in creating diverse and realistic images. This success extends to food imagery, where various conditional inputs like cooking styles, ingredients, and recipes are utilized. However, a yet-unexplored challenge is generating a sequence of procedural images based on cooking steps from a recipe. This could enhance the cooking experience with visual guidance and possibly lead to an intelligent cooking simulation system. To fill this gap, we introduce a novel task called \textbf{cooking procedural image generation}. This task is inherently demanding, as it strives to create photo-realistic images that align with cooking steps while preserving sequential consistency. To collectively tackle these challenges, we present \textbf{CookingDiffusion}, a novel approach that leverages Stable Diffusion and three innovative Memory Nets to model procedural prompts. These prompts encompass text prompts (representing cooking steps), image prompts (corresponding to cooking images), and multi-modal prompts (mixing cooking steps and images), ensuring the consistent generation of cooking procedural images. To validate the effectiveness of our approach, we preprocess the YouCookII dataset, establishing a new benchmark. Our experimental results demonstrate that our model excels at generating high-quality cooking procedural images with remarkable consistency across sequential cooking steps, as measured by both the FID and the proposed Average Procedure Consistency metrics. Furthermore, CookingDiffusion demonstrates the ability to manipulate ingredients and cooking methods in a recipe. We will make our code, models, and dataset publicly accessible.
- Abstract(参考訳): テキスト・画像生成モデルの最近の進歩は、多彩でリアルな画像を作成するのに優れている。
この成功は料理のスタイル、食材、レシピといった様々な条件入力が利用される食品イメージにまで及んでいる。
しかし、まだ解明されていない課題は、レシピから調理手順に基づいた一連の手続き的な画像を生成することである。
これにより、視覚誘導による調理体験が向上し、インテリジェントな調理シミュレーションシステムに繋がる可能性がある。
そこで我々は,このギャップを埋めるために,‘textbf{cooking procedural image generation} という新しいタスクを導入する。
このタスクは、シーケンシャルな一貫性を維持しながら調理工程と整合する写真リアリスティックなイメージを作成するために、本質的に要求されている。
これらの課題に一括して取り組むために, 安定拡散と3つの革新的なメモリネットを利用した手続き的プロンプトをモデル化する新しいアプローチである \textbf{CookingDiffusion} を提案する。
これらのプロンプトは、テキストプロンプト(調理ステップを表す)、画像プロンプト(調理イメージに対応する)、マルチモーダルプロンプト(調理ステップと画像の混合)を含み、調理手続き的な画像の一貫性を確保する。
提案手法の有効性を検証するため,YouCookIIデータセットを前処理し,新しいベンチマークを確立する。
実験の結果,FIDと提案した平均手順整合性測定値の両方で測定した結果,高精度なプロシージャ画像の生成に優れ,連続的な調理工程の整合性に優れることがわかった。
さらに、CookingDiffusionはレシピで材料や調理方法を操作できることを実証している。
コード、モデル、データセットを公開して公開します。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Learning Program Representations for Food Images and Cooking Recipes [26.054436410924737]
料理のレシピや料理のイメージを料理プログラムとして表現することを提案する。
モデルは、自己監督を通じてレシピと食品画像の結合埋め込みを学ぶために訓練される。
プログラムへのイメージ・レシピの埋め込みを投影すると、モーダル横断検索結果がより良くなることを示す。
論文 参考訳(メタデータ) (2022-03-30T05:52:41Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z) - CookGAN: Meal Image Synthesis from Ingredients [24.295634252929112]
生成深度モデルに基づく新しい計算フレームワークを提案し,その成分のテキストリストから写真リアルな食品食のイメージを合成する。
CookGANは、注意に基づく材料イメージアソシエーションモデルを構築し、食事画像の合成を行う生成ニューラルネットワークの条件付けに使用される。
論文 参考訳(メタデータ) (2020-02-25T00:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。