論文の概要: CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation
- arxiv url: http://arxiv.org/abs/2512.03540v1
- Date: Wed, 03 Dec 2025 08:01:48 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:56:29.567425
- Title: CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation
- Title(参考訳): CookAnything: フレキシブルで一貫性のあるマルチステップレシピ画像生成フレームワーク
- Authors: Ruoxuan Zhang, Bin Wen, Hongxia Xie, Yi Yao, Songhan Zuo, Jian-Yu Jiang-Lin, Hong-Han Shuai, Wen-Huang Cheng,
- Abstract要約: CookAnythingは任意の長さの調理命令から一貫性のあるセマンティックな画像シーケンスを生成するフレームワークである。
複雑な多段階命令のスケーラブルで高品質なビジュアル合成をサポートし、教育メディアや手続き的コンテンツ作成における幅広い応用に有意義な可能性を秘めている。
- 参考スコア(独自算出の注目度): 34.977083209936815
- License:
- Abstract: Cooking is a sequential and visually grounded activity, where each step such as chopping, mixing, or frying carries both procedural logic and visual semantics. While recent diffusion models have shown strong capabilities in text-to-image generation, they struggle to handle structured multi-step scenarios like recipe illustration. Additionally, current recipe illustration methods are unable to adjust to the natural variability in recipe length, generating a fixed number of images regardless of the actual instructions structure. To address these limitations, we present CookAnything, a flexible and consistent diffusion-based framework that generates coherent, semantically distinct image sequences from textual cooking instructions of arbitrary length. The framework introduces three key components: (1) Step-wise Regional Control (SRC), which aligns textual steps with corresponding image regions within a single denoising process; (2) Flexible RoPE, a step-aware positional encoding mechanism that enhances both temporal coherence and spatial diversity; and (3) Cross-Step Consistency Control (CSCC), which maintains fine-grained ingredient consistency across steps. Experimental results on recipe illustration benchmarks show that CookAnything performs better than existing methods in training-based and training-free settings. The proposed framework supports scalable, high-quality visual synthesis of complex multi-step instructions and holds significant potential for broad applications in instructional media, and procedural content creation.
- Abstract(参考訳): 調理は逐次的で視覚的に根ざした活動であり、カット、ミキシング、フライングといった各ステップは手続き論理と視覚的意味論の両方を担っている。
最近の拡散モデルは、テキスト・画像生成において強力な能力を示しているが、レシピ・イラストのような構造化された多段階シナリオを扱うのに苦労している。
また、現在のレシピイラストレーション手法では、レシピの長さの自然変動に適応できず、実際の命令構造に関係なく一定数の画像を生成することができる。
このような制約に対処するために,任意の長さのテキスト調理命令から一貫性のある意味的に異なる画像列を生成する,フレキシブルで一貫した拡散ベースのフレームワークCookAnythingを提案する。
本フレームワークは,(1)段階的領域制御(SRC),(2)段階的位置認識機構であるフレキシブル RoPE,(3)ステップ間のきめ細かい成分整合性を維持するクロスステップ整合性制御(CSCC)の3つの重要な構成要素を紹介する。
レシピのイラストレーションベンチマークによる実験結果から、CookAnythingはトレーニングベースやトレーニング不要の設定において、既存の方法よりも優れたパフォーマンスを示している。
提案フレームワークは、複雑な多段階命令のスケーラブルで高品質なビジュアル合成をサポートし、命令メディアや手続き的コンテンツ作成における幅広い応用に有意義な可能性を秘めている。
関連論文リスト
- Chain-of-Cooking:Cooking Process Visualization via Bidirectional Chain-of-Thought Guidance [6.4337734580551365]
調理過程の可視化モデルであるChain-of-Cookingを提案する。
素材の正確な外観を生成するために,予め生成した画像パッチを参照として検索する。
生成した画像のコヒーレンスを高め、合理的な順序を保つために、セマンティック進化モジュールと双方向連鎖(CoT)ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-07-29T06:34:59Z) - CookingDiffusion: Cooking Procedural Image Generation with Stable Diffusion [58.92430755180394]
textbfCookingDiffusionは,調理工程のリアルな画像を生成する新しい手法である。
これらのプロンプトは、テキストプロンプト、画像プロンプト、マルチモーダルプロンプトを含み、一貫したプロシージャ画像の生成を保証する。
実験結果から, 高品質な調理用プロシージャ画像の生成に優れたモデルが得られた。
論文 参考訳(メタデータ) (2025-01-15T06:58:53Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Decomposing Generation Networks with Structure Prediction for Recipe
Generation [142.047662926209]
本稿では,構造予測を伴うDGN(Decomposing Generation Networks)を提案する。
具体的には,調理指導を複数のフェーズに分割し,各フェーズに異なるサブジェネレータを割り当てる。
提案手法は, (i) 大域的構造予測成分を用いてレシピ構造を学習し, (ii) 予測された構造に基づいてサブジェネレータ出力成分でレシピ相を生成するという2つの新しいアイデアを含む。
論文 参考訳(メタデータ) (2020-07-27T08:47:50Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。