論文の概要: Training-Free Text-to-Image Compositional Food Generation via Prompt Grafting
- arxiv url: http://arxiv.org/abs/2601.17666v1
- Date: Sun, 25 Jan 2026 03:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.122207
- Title: Training-Free Text-to-Image Compositional Food Generation via Prompt Grafting
- Title(参考訳): プロンプトグラフトによる無訓練テキスト画像合成食品の創製
- Authors: Xinyue Pan, Yuhao Chen, Fengqing Zhu,
- Abstract要約: 実際の食事のイメージは、しばしば複数の食品を含んでいる。
現代のテキストと画像の拡散モデルでは、オブジェクトの絡み合いによって正確なマルチフード画像を生成するのに苦労している。
Prompt Graftingは、テキスト中の明示的な空間的手がかりとサンプリング中の暗黙的なレイアウトガイダンスを組み合わせた、トレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 13.309829477759527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world meal images often contain multiple food items, making reliable compositional food image generation important for applications such as image-based dietary assessment, where multi-food data augmentation is needed, and recipe visualization. However, modern text-to-image diffusion models struggle to generate accurate multi-food images due to object entanglement, where adjacent foods (e.g., rice and soup) fuse together because many foods do not have clear boundaries. To address this challenge, we introduce Prompt Grafting (PG), a training-free framework that combines explicit spatial cues in text with implicit layout guidance during sampling. PG runs a two-stage process where a layout prompt first establishes distinct regions and the target prompt is grafted once layout formation stabilizes. The framework enables food entanglement control: users can specify which food items should remain separated or be intentionally mixed by editing the arrangement of layouts. Across two food datasets, our method significantly improves the presence of target objects and provides qualitative evidence of controllable separation.
- Abstract(参考訳): 実世界の食事画像は、しばしば複数の食品を含むため、画像ベースの食事評価、マルチフードデータ拡張が必要なアプリケーション、レシピの可視化などにおいて、信頼性の高い合成食品画像生成が重要となる。
しかし、現代のテキスト・画像拡散モデルでは、隣接する食品(例えば、米、スープ)に境界が明確でないため、隣接する食品(例えば、米、スープ)が融合するオブジェクトの絡み合いにより、正確なマルチフード画像を生成するのに苦労している。
この課題に対処するために,テキスト中の明示的な空間的手がかりとサンプリング中の暗黙的なレイアウトガイダンスを組み合わせた,トレーニング不要のフレームワークであるPrompt Grafting(PG)を紹介した。
PGは2段階のプロセスを実行し、レイアウトプロンプトが最初に異なる領域を確立し、レイアウトが安定するとターゲットプロンプトを移植する。
このフレームワークは、食品の絡み合い制御を可能にする。ユーザーはレイアウトの配置を編集することで、どの食品を分離するか、意図的に混合するかを指定できる。
2つの食品データセットにおいて,本手法は対象物の存在を著しく改善し,制御可能な分離の質的証拠を提供する。
関連論文リスト
- CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation [34.977083209936815]
CookAnythingは任意の長さの調理命令から一貫性のあるセマンティックな画像シーケンスを生成するフレームワークである。
複雑な多段階命令のスケーラブルで高品質なビジュアル合成をサポートし、教育メディアや手続き的コンテンツ作成における幅広い応用に有意義な可能性を秘めている。
論文 参考訳(メタデータ) (2025-12-03T08:01:48Z) - LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets [54.527878056610156]
食品認識におけるこれらの課題に対処するために,大規模言語モデル(LLM)を用いた枠組みを提案する。
まず LLM を利用して食品イメージを解析し,食品のタイトルや材料を生成する。
そして、生成したテキストと食品の画像を異なるドメインから共有埋め込み空間に投影し、ペアの類似性を最大化する。
論文 参考訳(メタデータ) (2025-11-20T04:38:56Z) - Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models [48.821150379374714]
大規模で高品質な食品画像合成データセットFC22kを導入する。
本研究では,前景や背景情報を処理・統合するためのFusion Moduleを組み込んだ新しい食品画像合成手法であるFoodfusionを提案する。
論文 参考訳(メタデータ) (2024-08-26T09:32:16Z) - OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation [43.65207396061584]
OVFoodSegは、ビジュアルコンテキストによるテキスト埋め込みを強化するフレームワークである。
OVFoodSegのトレーニングプロセスは、FoodLearnerの事前トレーニングと、セグメンテーションのためのその後の学習フェーズの2つの段階に分けられる。
以前のモデルの欠陥に対処することで、OVFoodSegは大幅な改善を示し、FoodSeg103データセット上での平均的インターセクション(mIoU)を4.9%増加させた。
論文 参考訳(メタデータ) (2024-04-01T18:26:29Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - An End-to-End Food Image Analysis System [8.622335099019214]
食品の局所化, 分類, 部分サイズ推定を統合した画像に基づく食品分析フレームワークを提案する。
提案するフレームワークはエンドツーエンドであり,複数の食品を含む任意の食品画像として入力することができる。
本研究の枠組みは,栄養摂食調査から収集した実生活食品画像データセットを用いて評価する。
論文 参考訳(メタデータ) (2021-02-01T05:36:20Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。