論文の概要: FoodLMM: A Versatile Food Assistant using Large Multi-modal Model
- arxiv url: http://arxiv.org/abs/2312.14991v1
- Date: Fri, 22 Dec 2023 11:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:23:52.718311
- Title: FoodLMM: A Versatile Food Assistant using Large Multi-modal Model
- Title(参考訳): 大規模マルチモーダルモデルを用いた多機能食品アシスタントFoodLMM
- Authors: Yuehao Yin, Huiyan Qi, Bin Zhu, Jingjing Chen, Yu-Gang Jiang,
Chong-Wah Ngo
- Abstract要約: 大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,食品認識,食材認識,レシピ生成,栄養推定,食品セグメンテーション,多ラウンド会話など,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
- 参考スコア(独自算出の注目度): 102.53130531577892
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Multi-modal Models (LMMs) have made impressive progress in many
vision-language tasks. Nevertheless, the performance of general LMMs in
specific domains is still far from satisfactory. This paper proposes FoodLMM, a
versatile food assistant based on LMMs with various capabilities, including
food recognition, ingredient recognition, recipe generation, nutrition
estimation, food segmentation and multi-round conversation. To facilitate
FoodLMM to deal with tasks beyond pure text output, we introduce a series of
novel task-specific tokens and heads, enabling the model to predict food
nutritional values and multiple segmentation masks. We adopt a two-stage
training strategy. In the first stage, we utilize multiple public food
benchmarks for multi-task learning by leveraging instruct-following paradigm.
In the second stage, we construct a multi-round conversation and a reasoning
segmentation datasets to fine-tune the model, enabling it to conduct
professional dialogues and generate segmentation masks based on complex
reasoning in food domain. Our fine-tuned FoodLMM achieves state-of-the-art
results across several food benchmarks. We will make our code, models and
datasets publicly available.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
しかし、特定の領域における一般LMMの性能は、まだ十分ではない。
本稿では,食品認識,食材認識,レシピ生成,栄養推定,食品セグメンテーション,多ラウンド会話など,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
純粋なテキスト出力以外のタスクの処理を容易にするために,一連のタスク固有のトークンとヘッドを導入し,食品栄養値と複数のセグメンテーションマスクの予測を可能にした。
2段階のトレーニング戦略を採用しています。
第1段階では,インストラクション・フォロー・パラダイムを活用し,マルチタスク学習に複数の公開食品ベンチマークを利用する。
第2段階では,マルチラウンド会話と推論セグメンテーションデータセットを構築し,モデルを微調整し,食事領域における複雑な推論に基づく専門的な対話やセグメンテーションマスクの生成を可能にする。
微調整したFoodLMMは、いくつかの食品ベンチマークで最先端の結果が得られる。
コード、モデル、データセットを一般公開します。
関連論文リスト
- Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - FIRE: Food Image to REcipe generation [11.214936422138742]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:47:35Z) - Large Scale Visual Food Recognition [43.43598316339732]
これは2000のカテゴリと100万以上のイメージを持つ、最大規模の食品認識データセットです。
food2kはそれらをカテゴリとイメージの両方で1桁ずつバイパスする。
食品認識のためのディーププログレッシブ領域強化ネットワークを提案します。
論文 参考訳(メタデータ) (2021-03-30T06:41:42Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Multi-Task Image-Based Dietary Assessment for Food Recognition and
Portion Size Estimation [6.603050343996914]
本稿では,食品分類と食品部分サイズ推定の両立が可能なエンドツーエンドマルチタスクフレームワークを提案する。
本結果は,分類精度と部分推定の平均絶対誤差の両方において,ベースライン法より優れる。
論文 参考訳(メタデータ) (2020-04-27T21:35:07Z) - MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images
with Latent Variable Model [28.649961369386148]
我々は、画像やテキストを同じ埋め込み空間に投影することで、モダリティ不変表現を学習するModality-Consistent Embedding Network(MCEN)を提案する。
本手法は, 学習中のモーダル間のアライメントを学習するが, 効率を考慮に入れた推定時間において, 異なるモーダルの埋め込みを独立に計算する。
論文 参考訳(メタデータ) (2020-04-02T16:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。