論文の概要: FoodLMM: A Versatile Food Assistant using Large Multi-modal Model
- arxiv url: http://arxiv.org/abs/2312.14991v1
- Date: Fri, 22 Dec 2023 11:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:23:52.718311
- Title: FoodLMM: A Versatile Food Assistant using Large Multi-modal Model
- Title(参考訳): 大規模マルチモーダルモデルを用いた多機能食品アシスタントFoodLMM
- Authors: Yuehao Yin, Huiyan Qi, Bin Zhu, Jingjing Chen, Yu-Gang Jiang,
Chong-Wah Ngo
- Abstract要約: 大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,食品認識,食材認識,レシピ生成,栄養推定,食品セグメンテーション,多ラウンド会話など,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
- 参考スコア(独自算出の注目度): 102.53130531577892
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Multi-modal Models (LMMs) have made impressive progress in many
vision-language tasks. Nevertheless, the performance of general LMMs in
specific domains is still far from satisfactory. This paper proposes FoodLMM, a
versatile food assistant based on LMMs with various capabilities, including
food recognition, ingredient recognition, recipe generation, nutrition
estimation, food segmentation and multi-round conversation. To facilitate
FoodLMM to deal with tasks beyond pure text output, we introduce a series of
novel task-specific tokens and heads, enabling the model to predict food
nutritional values and multiple segmentation masks. We adopt a two-stage
training strategy. In the first stage, we utilize multiple public food
benchmarks for multi-task learning by leveraging instruct-following paradigm.
In the second stage, we construct a multi-round conversation and a reasoning
segmentation datasets to fine-tune the model, enabling it to conduct
professional dialogues and generate segmentation masks based on complex
reasoning in food domain. Our fine-tuned FoodLMM achieves state-of-the-art
results across several food benchmarks. We will make our code, models and
datasets publicly available.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
しかし、特定の領域における一般LMMの性能は、まだ十分ではない。
本稿では,食品認識,食材認識,レシピ生成,栄養推定,食品セグメンテーション,多ラウンド会話など,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
純粋なテキスト出力以外のタスクの処理を容易にするために,一連のタスク固有のトークンとヘッドを導入し,食品栄養値と複数のセグメンテーションマスクの予測を可能にした。
2段階のトレーニング戦略を採用しています。
第1段階では,インストラクション・フォロー・パラダイムを活用し,マルチタスク学習に複数の公開食品ベンチマークを利用する。
第2段階では,マルチラウンド会話と推論セグメンテーションデータセットを構築し,モデルを微調整し,食事領域における複雑な推論に基づく専門的な対話やセグメンテーションマスクの生成を可能にする。
微調整したFoodLMMは、いくつかの食品ベンチマークで最先端の結果が得られる。
コード、モデル、データセットを一般公開します。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - LLaVA-Chef: A Multi-modal Generative Model for Food Recipes [17.705244174235045]
大規模言語モデル(LLM)は、自然言語処理アプローチにより、食品関連のタスクをより深く掘り下げる道を開いた。
この研究は、多様なレシピプロンプトのキュレートされたデータセットに基づいて訓練された新しいモデルであるLLaVA-Chefを提案する。
詳細な質的分析により、LLaVA-Chefはより詳細なレシピを生成し、正確な成分が記述されていることが明らかになった。
論文 参考訳(メタデータ) (2024-08-29T20:20:49Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Multi-Task Image-Based Dietary Assessment for Food Recognition and
Portion Size Estimation [6.603050343996914]
本稿では,食品分類と食品部分サイズ推定の両立が可能なエンドツーエンドマルチタスクフレームワークを提案する。
本結果は,分類精度と部分推定の平均絶対誤差の両方において,ベースライン法より優れる。
論文 参考訳(メタデータ) (2020-04-27T21:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。