論文の概要: Real-Time Cooked Food Image Synthesis and Visual Cooking Progress Monitoring on Edge Devices
- arxiv url: http://arxiv.org/abs/2511.16965v1
- Date: Fri, 21 Nov 2025 05:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.897481
- Title: Real-Time Cooked Food Image Synthesis and Visual Cooking Progress Monitoring on Edge Devices
- Title(参考訳): エッジデバイスにおけるリアルタイム調理食品画像合成と視覚調理進捗モニタリング
- Authors: Jigyasa Gupta, Soumya Goyal, Anil Kumar, Ishan Jindal,
- Abstract要約: オーブンをベースとした最初の調理プログレスデータセットを,シェフのドキュメンテーションレベルで紹介した。
生の食品画像に条件付けされたリアルな食品イメージを合成するエッジ効率のレシピと調理状態ガイドジェネレータを提案する。
- 参考スコア(独自算出の注目度): 4.373318192668093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing realistic cooked food images from raw inputs on edge devices is a challenging generative task, requiring models to capture complex changes in texture, color and structure during cooking. Existing image-to-image generation methods often produce unrealistic results or are too resource-intensive for edge deployment. We introduce the first oven-based cooking-progression dataset with chef-annotated doneness levels and propose an edge-efficient recipe and cooking state guided generator that synthesizes realistic food images conditioned on raw food image. This formulation enables user-preferred visual targets rather than fixed presets. To ensure temporal consistency and culinary plausibility, we introduce a domain-specific \textit{Culinary Image Similarity (CIS)} metric, which serves both as a training loss and a progress-monitoring signal. Our model outperforms existing baselines with significant reductions in FID scores (30\% improvement on our dataset; 60\% on public datasets)
- Abstract(参考訳): エッジデバイス上での生の入力からリアルに調理された食品画像を合成することは、複雑なテクスチャ、色、構造の変化をモデルで捉えるという、難しい生成作業である。
既存のイメージ・ツー・イメージ生成手法は、しばしば非現実的な結果を生み出すか、あるいはエッジデプロイメントにリソース集約的すぎる。
そこで本研究では, 生鮮食品画像に照らしたリアルな食品画像を合成する, エッジ効率の高いレシピと調理状態案内ジェネレータを提案する。
この定式化は、固定されたプリセットではなく、ユーザが優先する視覚的ターゲットを可能にする。
時間的一貫性と料理の可視性を確保するため、トレーニング損失と進捗監視信号の両方を兼ね備えたドメイン固有の \textit{Culinary Image similarity (CIS) 指標を導入する。
私たちのモデルは、FIDスコアの大幅な削減(データセットの30倍、パブリックデータセットの60倍)により、既存のベースラインよりも優れています。
関連論文リスト
- LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets [54.527878056610156]
食品認識におけるこれらの課題に対処するために,大規模言語モデル(LLM)を用いた枠組みを提案する。
まず LLM を利用して食品イメージを解析し,食品のタイトルや材料を生成する。
そして、生成したテキストと食品の画像を異なるドメインから共有埋め込み空間に投影し、ペアの類似性を最大化する。
論文 参考訳(メタデータ) (2025-11-20T04:38:56Z) - CookingDiffusion: Cooking Procedural Image Generation with Stable Diffusion [58.92430755180394]
textbfCookingDiffusionは,調理工程のリアルな画像を生成する新しい手法である。
これらのプロンプトは、テキストプロンプト、画像プロンプト、マルチモーダルプロンプトを含み、一貫したプロシージャ画像の生成を保証する。
実験結果から, 高品質な調理用プロシージャ画像の生成に優れたモデルが得られた。
論文 参考訳(メタデータ) (2025-01-15T06:58:53Z) - Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - Diffusion Model with Clustering-based Conditioning for Food Image
Generation [22.154182296023404]
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられている。
潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。
本稿では,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークであるClusDiffを提案する。
論文 参考訳(メタデータ) (2023-09-01T01:40:39Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - CookGAN: Meal Image Synthesis from Ingredients [24.295634252929112]
生成深度モデルに基づく新しい計算フレームワークを提案し,その成分のテキストリストから写真リアルな食品食のイメージを合成する。
CookGANは、注意に基づく材料イメージアソシエーションモデルを構築し、食事画像の合成を行う生成ニューラルネットワークの条件付けに使用される。
論文 参考訳(メタデータ) (2020-02-25T00:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。