論文の概要: ChefFusion: Multimodal Foundation Model Integrating Recipe and Food Image Generation
- arxiv url: http://arxiv.org/abs/2409.12010v1
- Date: Wed, 18 Sep 2024 14:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:24:06.787928
- Title: ChefFusion: Multimodal Foundation Model Integrating Recipe and Food Image Generation
- Title(参考訳): ChefFusion: レシピと食品画像生成を統合したマルチモーダルファンデーションモデル
- Authors: Peiyu Li, Xiaobao Huang, Yijun Tian, Nitesh V. Chawla,
- Abstract要約: 我々は,真のマルチモーダル性を実現する新しい食品コンピューティング基盤モデルを導入する。
大規模言語モデル(LLM)と事前訓練された画像エンコーダおよびデコーダモデルを活用することで、我々のモデルはさまざまな食品コンピューティング関連のタスクを実行することができる。
- 参考スコア(独自算出の注目度): 19.704975821172315
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Significant work has been conducted in the domain of food computing, yet these studies typically focus on single tasks such as t2t (instruction generation from food titles and ingredients), i2t (recipe generation from food images), or t2i (food image generation from recipes). None of these approaches integrate all modalities simultaneously. To address this gap, we introduce a novel food computing foundation model that achieves true multimodality, encompassing tasks such as t2t, t2i, i2t, it2t, and t2ti. By leveraging large language models (LLMs) and pre-trained image encoder and decoder models, our model can perform a diverse array of food computing-related tasks, including food understanding, food recognition, recipe generation, and food image generation. Compared to previous models, our foundation model demonstrates a significantly broader range of capabilities and exhibits superior performance, particularly in food image generation and recipe generation tasks. We open-sourced ChefFusion at GitHub.
- Abstract(参考訳): 食品コンピューティング分野において重要な研究がなされているが、これらの研究は一般的に、t2t(食品のタイトルや材料からの指示生成)、i2t(食品画像からのレシピ生成)、t2i(レシピからの食品画像生成)のような単一のタスクに焦点を当てている。
これらのアプローチはいずれも同時にすべてのモダリティを統合するものではない。
このギャップに対処するため、我々は、t2t, t2i, i2t, it2t, t2tiといったタスクを含む、真のマルチモーダルを実現する新しい食品コンピューティング基盤モデルを導入する。
大規模言語モデル(LLM)と事前学習画像エンコーダモデル、デコーダモデルを活用することで、食品理解、食品認識、レシピ生成、食品画像生成など、さまざまな食品処理関連タスクを実行できる。
これまでのモデルと比較すると, ファンデーションモデルは非常に幅広い機能を示し, 特に食品画像生成やレシピ生成において, 優れた性能を示す。
私たちはGitHubでChefFusionをオープンソース化しました。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - Deep Image-to-Recipe Translation [0.0]
Deep Image-to-Recipe Translation(ディープ・イメージ・ツー・レシピ・トランスレーション)は、鮮やかな食品記憶と料理作りの技法のギャップを埋めることを目的としている。
我々の主な目的は、所定の食品画像から成分を予測することである。
我々のアプローチは、正確性だけで誤解を招く可能性のあるシナリオにおいて、IoU(Intersection over Union)やF1スコアのようなメトリクスの重要性を強調します。
論文 参考訳(メタデータ) (2024-07-01T02:33:07Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。