論文の概要: FIRE: Food Image to REcipe generation
- arxiv url: http://arxiv.org/abs/2308.14391v2
- Date: Sun, 12 May 2024 18:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 01:22:32.022835
- Title: FIRE: Food Image to REcipe generation
- Title(参考訳): FIRE:食品画像から世代を再現する
- Authors: Prateek Chhikara, Dhiraj Chaurasia, Yifan Jiang, Omkar Masur, Filip Ilievski,
- Abstract要約: フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
- 参考スコア(独自算出の注目度): 10.45344523054623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food computing has emerged as a prominent multidisciplinary field of research in recent years. An ambitious goal of food computing is to develop end-to-end intelligent systems capable of autonomously producing recipe information for a food image. Current image-to-recipe methods are retrieval-based and their success depends heavily on the dataset size and diversity, as well as the quality of learned embeddings. Meanwhile, the emergence of powerful attention-based vision and language models presents a promising avenue for accurate and generalizable recipe generation, which has yet to be extensively explored. This paper proposes FIRE, a novel multimodal methodology tailored to recipe generation in the food computing domain, which generates the food title, ingredients, and cooking instructions based on input food images. FIRE leverages the BLIP model to generate titles, utilizes a Vision Transformer with a decoder for ingredient extraction, and employs the T5 model to generate recipes incorporating titles and ingredients as inputs. We showcase two practical applications that can benefit from integrating FIRE with large language model prompting: recipe customization to fit recipes to user preferences and recipe-to-code transformation to enable automated cooking processes. Our experimental findings validate the efficacy of our proposed approach, underscoring its potential for future advancements and widespread adoption in food computing.
- Abstract(参考訳): 近年,食品科学は多分野の研究分野として注目されている。
フードコンピューティングの野心的な目標は、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することである。
現在のイメージ・ツー・レシピ法は検索ベースであり、その成功はデータセットのサイズと多様性、学習された埋め込みの品質に大きく依存する。
一方、強力な注意力に基づく視覚と言語モデルの出現は、正確で一般化可能なレシピ生成のための有望な道のりを示し、まだ広く研究されていない。
本稿では,食品処理領域におけるレシピ生成に適した新しいマルチモーダル手法であるFIREを提案する。
FIREはBLIPモデルを利用してタイトルを生成し、Vision Transformerとデコーダを使って材料抽出を行い、T5モデルを使用してタイトルと材料を入力として組み込んだレシピを生成する。
本稿では,FIREを大規模言語モデルに統合することで,レシピをユーザの好みに適合させるレシピカスタマイズと,自動調理プロセスを実現するレシピ・ツー・コード変換という2つの実践的応用を紹介した。
提案手法の有効性を実験的に検証し,今後の進歩と食品コンピューティングへの普及の可能性を明らかにした。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Deep Image-to-Recipe Translation [0.0]
Deep Image-to-Recipe Translation(ディープ・イメージ・ツー・レシピ・トランスレーション)は、鮮やかな食品記憶と料理作りの技法のギャップを埋めることを目的としている。
我々の主な目的は、所定の食品画像から成分を予測することである。
我々のアプローチは、正確性だけで誤解を招く可能性のあるシナリオにおいて、IoU(Intersection over Union)やF1スコアのようなメトリクスの重要性を強調します。
論文 参考訳(メタデータ) (2024-07-01T02:33:07Z) - Cook-Gen: Robust Generative Modeling of Cooking Actions from Recipes [6.666528076345153]
食品計算モデルは、健康的な食事習慣を維持するのを助けることで、ますます人気が高まっている。
本研究では,調理行動を含む現在の食品計算モデルを拡張するための生成AI手法について検討する。
本稿では,レシピから調理動作を確実に生成する新しいアグリゲーションベースの生成AI手法であるCook-Genを提案する。
論文 参考訳(メタデータ) (2023-06-01T18:49:47Z) - Learning Program Representations for Food Images and Cooking Recipes [26.054436410924737]
料理のレシピや料理のイメージを料理プログラムとして表現することを提案する。
モデルは、自己監督を通じてレシピと食品画像の結合埋め込みを学ぶために訓練される。
プログラムへのイメージ・レシピの埋め込みを投影すると、モーダル横断検索結果がより良くなることを示す。
論文 参考訳(メタデータ) (2022-03-30T05:52:41Z) - Learning Structural Representations for Recipe Generation and Food
Retrieval [101.97397967958722]
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-04T06:36:31Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。