論文の概要: FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation
- arxiv url: http://arxiv.org/abs/2409.18459v1
- Date: Fri, 27 Sep 2024 05:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 06:11:53.076403
- Title: FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation
- Title(参考訳): FoodMLLM-JP:日本語レシピ生成のためのマルチモーダル大言語モデルを活用する
- Authors: Yuki Imajuku, Yoko Yamakata, Kiyoharu Aizawa,
- Abstract要約: オープンMLLMのLLaVA-1.5とPhi-3 Visionを日本のレシピデータセット上で微調整し,その性能をGPT-4oと比較した。
本評価は,レシピデータに基づいて学習したオープンモデルが,現在の最先端モデルであるGPT-4oを材料生成において上回っていることを示す。
- 参考スコア(独自算出の注目度): 30.349846688239293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on food image understanding using recipe data has been a long-standing focus due to the diversity and complexity of the data. Moreover, food is inextricably linked to people's lives, making it a vital research area for practical applications such as dietary management. Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities, not only in their vast knowledge but also in their ability to handle languages naturally. While English is predominantly used, they can also support multiple languages including Japanese. This suggests that MLLMs are expected to significantly improve performance in food image understanding tasks. We fine-tuned open MLLMs LLaVA-1.5 and Phi-3 Vision on a Japanese recipe dataset and benchmarked their performance against the closed model GPT-4o. We then evaluated the content of generated recipes, including ingredients and cooking procedures, using 5,000 evaluation samples that comprehensively cover Japanese food culture. Our evaluation demonstrates that the open models trained on recipe data outperform GPT-4o, the current state-of-the-art model, in ingredient generation. Our model achieved F1 score of 0.531, surpassing GPT-4o's F1 score of 0.481, indicating a higher level of accuracy. Furthermore, our model exhibited comparable performance to GPT-4o in generating cooking procedure text.
- Abstract(参考訳): レシピデータを用いた食品画像の理解に関する研究は、データの多様性と複雑さにより、長年にわたって注目されてきた。
また、食品は人々の生活と密接な関係があり、食事管理などの実践的な用途に欠かせない研究領域となっている。
MLLM(Multimodal Large Language Models)の最近の進歩は、その膨大な知識だけでなく、言語を自然に扱う能力においても顕著な能力を示している。
主に英語が使われているが、日本語を含む複数の言語もサポートできる。
このことから,食品画像理解タスクにおけるMLLMの性能向上が期待できる。
オープンMLLMのLLaVA-1.5とPhi-3 Visionを日本のレシピデータセット上で微調整し,その性能をGPT-4oと比較した。
次に,日本食文化を包括的に包括的に包括的に分析した5000点の評価試料を用いて,食材や調理手順を含む生成レシピの内容を評価した。
本評価は,レシピデータに基づいて学習したオープンモデルが,現在の最先端モデルであるGPT-4oを材料生成において上回っていることを示す。
GPT-4oのF1スコア0.481を超え,高い精度でF1スコア0.531を達成した。
さらに,本モデルでは,調理手順テキストの生成において,GPT-4oに匹敵する性能を示した。
関連論文リスト
- Identifying and Decomposing Compound Ingredients in Meal Plans Using Large Language Models [6.477074442920329]
本研究では, 食事計画における大規模言語モデルの有効性について検討し, 複合成分の識別・分解能力に着目した。
GPT-4o, Llama-3 (70b), Mixtral (8x7b) の3種類のモデルを用いて, 複合成分の認識・分解能力の評価を行った。
予備的な結果は、Llama-3 (70b) と GPT-4o が正確な分解に優れているのに対して、全てのモデルは調味料や油などの必須成分を同定することが困難であることを示している。
論文 参考訳(メタデータ) (2024-11-08T12:38:10Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - LLaVA-Chef: A Multi-modal Generative Model for Food Recipes [17.705244174235045]
大規模言語モデル(LLM)は、自然言語処理アプローチにより、食品関連のタスクをより深く掘り下げる道を開いた。
この研究は、多様なレシピプロンプトのキュレートされたデータセットに基づいて訓練された新しいモデルであるLLaVA-Chefを提案する。
詳細な質的分析により、LLaVA-Chefはより詳細なレシピを生成し、正確な成分が記述されていることが明らかになった。
論文 参考訳(メタデータ) (2024-08-29T20:20:49Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - Dietary Assessment with Multimodal ChatGPT: A Systematic Analysis [17.333822848423708]
本研究は、食事アセスメントの領域におけるマルチモーダルChatGPTの適用について検討する。
モデルを特定の言語プロンプトで導くことで、GPT-4Vは、米やパンのような一般的な主食を認識することから、バンクーやウグリといった地域料理を正確に識別するようになる。
GPT-4Vは、周囲の物体をスケール基準として利用し、食品の部位サイズを推定し、食品の重量を栄養分に翻訳する精度をさらに高める。
論文 参考訳(メタデータ) (2023-12-14T01:26:45Z) - Efficient Finetuning Large Language Models For Vietnamese Chatbot [1.2075778142867704]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を発揮することが示されている。
Alpaca、GPT4All、Chat-Doctorなど、オープンソースの大規模インストラクションフォローデータセットを活用しています。
我々は,低ランク適応(LoRA)によるパラメータ効率チューニングを2つのオープンLLM上で行い,その結果,Bloomz-Chat,Bloomz-Doctor,GPTJ-Chat,GPTJ-Doctorの4つのモデルを得た。
論文 参考訳(メタデータ) (2023-09-09T00:11:53Z) - LLM-powered Data Augmentation for Enhanced Cross-lingual Performance [24.20730298894794]
本稿では,Large Language Models (LLMs) を利用したコモンセンス推論データセットにおけるデータ拡張の可能性について検討する。
これを実現するために、私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4といういくつかのLCMを利用する。
合成データを用いて,小型多言語モデルmBERTとXLMRの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:33:27Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。