論文の概要: Chain-of-Cooking:Cooking Process Visualization via Bidirectional Chain-of-Thought Guidance
- arxiv url: http://arxiv.org/abs/2507.21529v1
- Date: Tue, 29 Jul 2025 06:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.760646
- Title: Chain-of-Cooking:Cooking Process Visualization via Bidirectional Chain-of-Thought Guidance
- Title(参考訳): チェーン・オブ・クッキング:双方向チェーン・オブ・ソート誘導による調理過程の可視化
- Authors: Mengling Xu, Ming Tao, Bing-Kun Bao,
- Abstract要約: 調理過程の可視化モデルであるChain-of-Cookingを提案する。
素材の正確な外観を生成するために,予め生成した画像パッチを参照として検索する。
生成した画像のコヒーレンスを高め、合理的な順序を保つために、セマンティック進化モジュールと双方向連鎖(CoT)ガイダンスを提案する。
- 参考スコア(独自算出の注目度): 6.4337734580551365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooking process visualization is a promising task in the intersection of image generation and food analysis, which aims to generate an image for each cooking step of a recipe. However, most existing works focus on generating images of finished foods based on the given recipes, and face two challenges to visualize the cooking process. First, the appearance of ingredients changes variously across cooking steps, it is difficult to generate the correct appearances of foods that match the textual description, leading to semantic inconsistency. Second, the current step might depend on the operations of previous step, it is crucial to maintain the contextual coherence of images in sequential order. In this work, we present a cooking process visualization model, called Chain-of-Cooking. Specifically, to generate correct appearances of ingredients, we present a Dynamic Patch Selection Module to retrieve previously generated image patches as references, which are most related to current textual contents. Furthermore, to enhance the coherence and keep the rational order of generated images, we propose a Semantic Evolution Module and a Bidirectional Chain-of-Thought (CoT) Guidance. To better utilize the semantics of previous texts, the Semantic Evolution Module establishes the semantical association between latent prompts and current cooking step, and merges it with the latent features. Then the CoT Guidance updates the merged features to guide the current cooking step remain coherent with the previous step. Moreover, we construct a dataset named CookViz, consisting of intermediate image-text pairs for the cooking process. Quantitative and qualitative experiments show that our method outperforms existing methods in generating coherent and semantic consistent cooking process.
- Abstract(参考訳): 調理過程の可視化は,レシピの調理工程毎に画像を生成することを目的とした,画像生成と食品分析の交差点における有望なタスクである。
しかし、現存するほとんどの作品は、与えられたレシピに基づいて完成した食品の画像を生成することに重点を置いており、調理過程を視覚化する2つの課題に直面している。
まず, 調理工程によって素材の外観が様々に変化するため, テキスト記述に合致する食品の正確な外観を生成できないため, 意味的不整合が生じる。
第二に、現在のステップは前のステップの操作に依存しているため、画像のコンテキスト的一貫性を逐次的に維持することが重要である。
本研究では,調理過程の可視化モデルであるChain-of-Cookingを提案する。
具体的には,素材の正確な外観を生成するために,以前生成された画像パッチを参照として検索する動的パッチ選択モジュールを提案する。
さらに、生成した画像のコヒーレンスを高め、合理的な順序を保つために、セマンティック進化モジュールと双方向チェーン・オブ・ソート(CoT)ガイダンスを提案する。
以前のテキストのセマンティックスをよりうまく活用するために、セマンティック進化モジュールは潜伏プロンプトと現在の調理工程の間のセマンティックな関連を確立し、潜伏した特徴とマージする。
その後、CoT Guidanceは統合された機能を更新し、現在の調理手順を前ステップと整合性を保つ。
さらに,調理プロセス用の中間画像テキストペアからなるCookVizというデータセットを構築した。
定量的および定性的な実験により,本手法はコヒーレントでセマンティックな一貫した調理プロセスの生成において,既存の手法よりも優れていることが示された。
関連論文リスト
- VisualChef: Generating Visual Aids in Cooking via Mask Inpainting [50.84305074983752]
我々は,調理シナリオに適したコンテキスト視覚支援を生成するVisualChefを紹介する。
初期フレームと指定されたアクションが与えられた後、VisualChefはアクションの実行と結果のオブジェクトの外観の両方を描写した画像を生成する。
3つのエゴセントリックなビデオデータセット上でVisualChefを定量的に定性的に評価し、最先端の手法による改善を示す。
論文 参考訳(メタデータ) (2025-06-23T12:23:21Z) - CookingDiffusion: Cooking Procedural Image Generation with Stable Diffusion [58.92430755180394]
textbfCookingDiffusionは,調理工程のリアルな画像を生成する新しい手法である。
これらのプロンプトは、テキストプロンプト、画像プロンプト、マルチモーダルプロンプトを含み、一貫したプロシージャ画像の生成を保証する。
実験結果から, 高品質な調理用プロシージャ画像の生成に優れたモデルが得られた。
論文 参考訳(メタデータ) (2025-01-15T06:58:53Z) - OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation [43.65207396061584]
OVFoodSegは、ビジュアルコンテキストによるテキスト埋め込みを強化するフレームワークである。
OVFoodSegのトレーニングプロセスは、FoodLearnerの事前トレーニングと、セグメンテーションのためのその後の学習フェーズの2つの段階に分けられる。
以前のモデルの欠陥に対処することで、OVFoodSegは大幅な改善を示し、FoodSeg103データセット上での平均的インターセクション(mIoU)を4.9%増加させた。
論文 参考訳(メタデータ) (2024-04-01T18:26:29Z) - PizzaCommonSense: Learning to Model Commonsense Reasoning about Intermediate Steps in Cooking Recipes [7.839338724237275]
レシピを効果的に推論するモデルは、レシピ内の中間ステップの入力と出力を正確に識別し、理解する必要がある。
そこで本研究では,各工程の入力と出力を記述した中間ステップを記述した料理レシピの新たなコーパスを提案する。
論文 参考訳(メタデータ) (2024-01-12T23:33:01Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。