論文の概要: UMDFood: Vision-language models boost food composition compilation
- arxiv url: http://arxiv.org/abs/2306.01747v2
- Date: Tue, 7 Nov 2023 02:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:32:40.806839
- Title: UMDFood: Vision-language models boost food composition compilation
- Title(参考訳): UMDFood:視覚言語モデルによって食品のコンポジションが向上
- Authors: Peihua Ma, Yixin Wu, Ning Yu, Yang Zhang, Michael Backes, Qin Wang,
Cheng-I Wei
- Abstract要約: 本稿では, 食品組成プロファイルを正確に推定するために, フロント・オブ・パッケージ・ラベリングと製品画像を用いた新しい視覚言語モデル, UMDFood-VLを提案する。
化学分析結果とモデル推定結果の誤差の最大82.2%は10%未満である。
この性能は、他の食品および栄養関連データコンパイルと触媒化への一般化に光を当てている。
- 参考スコア(独自算出の注目度): 26.5694236976957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nutrition information is crucial in precision nutrition and the food
industry. The current food composition compilation paradigm relies on laborious
and experience-dependent methods. However, these methods struggle to keep up
with the dynamic consumer market, resulting in delayed and incomplete nutrition
data. In addition, earlier machine learning methods overlook the information in
food ingredient statements or ignore the features of food images. To this end,
we propose a novel vision-language model, UMDFood-VL, using front-of-package
labeling and product images to accurately estimate food composition profiles.
In order to empower model training, we established UMDFood-90k, the most
comprehensive multimodal food database to date, containing 89,533 samples, each
labeled with image and text-based ingredient descriptions and 11 nutrient
annotations. UMDFood-VL achieves the macro-AUCROC up to 0.921 for fat content
estimation, which is significantly higher than existing baseline methods and
satisfies the practical requirements of food composition compilation.
Meanwhile, up to 82.2% of selected products' estimated error between chemical
analysis results and model estimation results are less than 10%. This
performance sheds light on generalization towards other food and
nutrition-related data compilation and catalyzation for the evolution of
generative AI-based technology in other food applications that require
personalization.
- Abstract(参考訳): 栄養情報は精密栄養と食品産業において重要である。
現在の食品構成のコンパイルパラダイムは、労力と経験に依存した方法に依存している。
しかし、これらの手法は動的消費者市場に追いつくのに苦労し、結果として栄養データが遅れて不完全な結果となった。
さらに、初期の機械学習手法は、食品成分ステートメントの情報を見落としたり、食品画像の特徴を無視したりする。
そこで本研究では,食品組成プロファイルを高精度に推定するために,パッケージ表ラベルと製品画像を用いた視覚言語モデルumdfood-vlを提案する。
モデルトレーニングの強化を目的として,画像およびテキストベースの成分記述と11種類の栄養アノテーションをラベル付けした89,533個のサンプルを含む,これまでで最も包括的なマルチモーダル食品データベースであるUDDFood-90kを構築した。
UMDFood-VLは, 既存の基準法よりも格段に高い脂肪量推定のマクロAUCROCを0.921まで達成し, 食品組成合成の実際的要件を満たす。
一方、化学分析結果とモデル推定結果の間の推定誤差の82.2%は10%以下である。
このパフォーマンスは、他の食品および栄養関連データコンパイルへの一般化と、パーソナライズを必要とする他の食品アプリケーションにおける生成AIベースの技術の進化への触媒化に光を当てている。
関連論文リスト
- NutritionVerse-Direct: Exploring Deep Neural Networks for Multitask Nutrition Prediction from Food Images [63.314702537010355]
自己申告法はしばしば不正確であり、重大な偏見に悩まされる。
近年、食品画像から栄養情報を予測するためにコンピュータビジョン予測システムを用いた研究が進められている。
本稿では,様々なニューラルネットワークアーキテクチャを活用することにより,食事摂取量推定の有効性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-05-13T14:56:55Z) - NutritionVerse-Real: An Open Access Manually Collected 2D Food Scene
Dataset for Dietary Intake Estimation [68.49526750115429]
食事摂取推定のための2D食品シーンデータセットであるNutritionVerse-Realを導入する。
NutritionVerse-Realデータセットは、実生活における食品シーンのイメージを手作業で収集し、各成分の重量を測定し、各料理の食生活内容を計算することによって作成されました。
論文 参考訳(メタデータ) (2023-11-20T11:05:20Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - Muti-Stage Hierarchical Food Classification [9.013592803864086]
トレーニングプロセス中に食品を反復的にクラスタリングし,マージすることで,食品分類のための多段階階層的枠組みを提案する。
本手法は,VFN栄養データセットを用いて評価し,食品の種類と食品の分類の両面で既存の研究と比較して有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-03T04:45:44Z) - NutritionVerse-3D: A 3D Food Model Dataset for Nutritional Intake
Estimation [65.47310907481042]
高齢者の4人に1人は栄養不良です。
機械学習とコンピュータビジョンは、食品の自動栄養トラッキング方法の約束を示す。
NutritionVerse-3Dは、105個の3D食品モデルの大規模な高解像度データセットである。
論文 参考訳(メタデータ) (2023-04-12T05:27:30Z) - Towards the Creation of a Nutrition and Food Group Based Image Database [58.429385707376554]
栄養・食品群に基づく画像データベースを構築するための枠組みを提案する。
米国農務省食品栄養データベース(FNDDS)における食品群に基づく食品コードリンクプロトコルを設計する。
提案手法は16,114個の食品データセットを含む栄養・食品群に基づく画像データベースを構築するために用いられる。
論文 参考訳(メタデータ) (2022-06-05T02:41:44Z) - Towards Building a Food Knowledge Graph for Internet of Food [66.57235827087092]
食品分類から食品分類、食品知識グラフまで、食品知識組織の進化を概観する。
食品知識グラフは、食品検索と質問回答(QA)、パーソナライズされた食事レコメンデーション、食品分析、可視化において重要な役割を果たす。
食品知識グラフの今後の方向性は、マルチモーダル食品知識グラフや食品インテリジェンスなど、いくつかの分野をカバーする。
論文 参考訳(メタデータ) (2021-07-13T06:26:53Z) - Picture-to-Amount (PITA): Predicting Relative Ingredient Amounts from
Food Images [24.26111169033236]
食品画像から各成分の相対的な量を予測するという,新しい課題と課題について考察する。
本稿では,この問題を解決するために,Picture-to-AmountディープラーニングアーキテクチャであるPITAを提案する。
インターネットから収集されたレシピのデータセットの実験は、モデルが有望な結果を生成することを示す。
論文 参考訳(メタデータ) (2020-10-17T06:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。