論文の概要: LLaVA-Chef: A Multi-modal Generative Model for Food Recipes
- arxiv url: http://arxiv.org/abs/2408.16889v1
- Date: Thu, 29 Aug 2024 20:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 17:08:59.091911
- Title: LLaVA-Chef: A Multi-modal Generative Model for Food Recipes
- Title(参考訳): LLaVA-Chef:食品レシピのマルチモーダル生成モデル
- Authors: Fnu Mohbat, Mohammed J. Zaki,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理アプローチにより、食品関連のタスクをより深く掘り下げる道を開いた。
この研究は、多様なレシピプロンプトのキュレートされたデータセットに基づいて訓練された新しいモデルであるLLaVA-Chefを提案する。
詳細な質的分析により、LLaVA-Chefはより詳細なレシピを生成し、正確な成分が記述されていることが明らかになった。
- 参考スコア(独自算出の注目度): 17.705244174235045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving landscape of online recipe sharing within a globalized context, there has been a notable surge in research towards comprehending and generating food recipes. Recent advancements in large language models (LLMs) like GPT-2 and LLaVA have paved the way for Natural Language Processing (NLP) approaches to delve deeper into various facets of food-related tasks, encompassing ingredient recognition and comprehensive recipe generation. Despite impressive performance and multi-modal adaptability of LLMs, domain-specific training remains paramount for their effective application. This work evaluates existing LLMs for recipe generation and proposes LLaVA-Chef, a novel model trained on a curated dataset of diverse recipe prompts in a multi-stage approach. First, we refine the mapping of visual food image embeddings to the language space. Second, we adapt LLaVA to the food domain by fine-tuning it on relevant recipe data. Third, we utilize diverse prompts to enhance the model's recipe comprehension. Finally, we improve the linguistic quality of generated recipes by penalizing the model with a custom loss function. LLaVA-Chef demonstrates impressive improvements over pretrained LLMs and prior works. A detailed qualitative analysis reveals that LLaVA-Chef generates more detailed recipes with precise ingredient mentions, compared to existing approaches.
- Abstract(参考訳): グローバル化された文脈におけるオンラインレシピ共有の急速な発展の中で、食品レシピの理解と生成に向けた研究が顕著に急増している。
GPT-2やLLaVAのような大規模言語モデル(LLM)の最近の進歩は、食品関連タスクの様々な側面を深く掘り下げる自然言語処理(NLP)アプローチの道を開いた。
LLMの優れた性能とマルチモーダル適応性にもかかわらず、ドメイン固有のトレーニングはその効果的な応用において最重要である。
本研究は、レシピ生成のための既存のLLMを評価し、多段階アプローチで多様なレシピプロンプトのキュレートデータセットに基づいて訓練された新しいモデルであるLLaVA-Chefを提案する。
まず,視覚食品画像の埋め込みの言語空間へのマッピングを改良する。
第2に、LLaVAを食品領域に適応させ、関連するレシピデータに基づいて微調整する。
第3に、多様なプロンプトを利用して、モデルのレシピ理解を強化する。
最後に、モデルにカスタム損失関数を付与することにより、生成したレシピの言語的品質を改善する。
LLaVA-Chefは、事前訓練されたLLMと事前の作業よりも大幅に改善されている。
詳細な質的分析により、LLaVA-Chefは、既存のアプローチと比較して、正確な食材に言及したより詳細なレシピを生成することが明らかになった。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - Culinary Class Wars: Evaluating LLMs using ASH in Cuisine Transfer Task [18.229223484919775]
大型言語モデル (LLMs) は、料理を含む様々な創造的領域において有望であることを示している。
本研究は, LLMの料理創造性を評価するために, ある料理を別の料理に伝達する要素に焦点を当てた。
論文 参考訳(メタデータ) (2024-11-04T11:31:18Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - Large Language Models as Sous Chefs: Revising Recipes with GPT-3 [56.7155146252028]
我々は、複雑で多様で広く使われている指示の例としてレシピに焦点を当てている。
我々は、レシピと材料リストに基づいたプロンプトを開発し、レシピをより単純なステップに分解する。
また,レシピリビジョンの品質の人的判断を収集しながら,疲労軽減を念頭に設計したAmazon Mechanical Turkタスクにも貢献する。
論文 参考訳(メタデータ) (2023-06-24T14:42:43Z) - Counterfactual Recipe Generation: Exploring Compositional Generalization
in a Realistic Scenario [60.20197771545983]
本研究では,材料の変化に応じて基本レシピを変更するようモデルに依頼する,反現実的なレシピ生成タスクを設計する。
料理の知識を学習するモデルのために、中国語で大規模なレシピデータセットを収集する。
その結果、既存のモデルでは原文のスタイルを保ちながら素材の変更が困難であり、調整が必要なアクションを見逃すことがしばしばあった。
論文 参考訳(メタデータ) (2022-10-20T17:21:46Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。