論文の概要: Evaluating Large Multimodal Models for Nutrition Analysis: A Benchmark Enriched with Contextual Metadata
- arxiv url: http://arxiv.org/abs/2507.07048v1
- Date: Wed, 09 Jul 2025 17:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.698072
- Title: Evaluating Large Multimodal Models for Nutrition Analysis: A Benchmark Enriched with Contextual Metadata
- Title(参考訳): 栄養分析のための大規模マルチモーダルモデルの評価:コンテキストメタデータを用いたベンチマーク
- Authors: Bruce Coburn, Jiangpeng He, Megan E. Rollo, Satvinder S. Dhaliwal, Deborah A. Kerr, Fengqing Zhu,
- Abstract要約: 本稿では,公開予定の食品画像データセットであるACETADAを紹介する。
本研究は、文脈メタデータの解釈が、重要な栄養価を推定する際のLMM性能をいかに向上させるかを検討する。
実験結果から, 即時的プロンプト戦略によりメタデータをインテリジェントに統合すると, 栄養価の予測値において, 平均絶対誤差 (MAE) と平均絶対誤差 (MAPE) が著しく減少することが示された。
- 参考スコア(独自算出の注目度): 6.474398074033423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) are increasingly applied to meal images for nutrition analysis. However, existing work primarily evaluates proprietary models, such as GPT-4. This leaves the broad range of LLMs underexplored. Additionally, the influence of integrating contextual metadata and its interaction with various reasoning modifiers remains largely uncharted. This work investigates how interpreting contextual metadata derived from GPS coordinates (converted to location/venue type), timestamps (transformed into meal/day type), and the food items present can enhance LMM performance in estimating key nutritional values. These values include calories, macronutrients (protein, carbohydrates, fat), and portion sizes. We also introduce ACETADA, a new food-image dataset slated for public release. This open dataset provides nutrition information verified by the dietitian and serves as the foundation for our analysis. Our evaluation across eight LMMs (four open-weight and four closed-weight) first establishes the benefit of contextual metadata integration over straightforward prompting with images alone. We then demonstrate how this incorporation of contextual information enhances the efficacy of reasoning modifiers, such as Chain-of-Thought, Multimodal Chain-of-Thought, Scale Hint, Few-Shot, and Expert Persona. Empirical results show that integrating metadata intelligently, when applied through straightforward prompting strategies, can significantly reduce the Mean Absolute Error (MAE) and Mean Absolute Percentage Error (MAPE) in predicted nutritional values. This work highlights the potential of context-aware LMMs for improved nutrition analysis.
- Abstract(参考訳): 栄養分析のための食事画像にはLMM(Large Multimodal Models)が適用されてきている。
しかし、既存の研究は主にGPT-4のようなプロプライエタリなモデルを評価している。
これにより、LLMの幅広い範囲が未発見のまま残されている。
さらに、文脈メタデータの統合とその様々な推論修飾子との相互作用の影響は、ほとんど変化していない。
本研究は、GPS座標(位置/店型)、タイムスタンプ(食事/日型)から得られるコンテキストメタデータをどう解釈するかを考察し、重要な栄養価を推定する上でLMM性能を向上させることができる食品について述べる。
これらの値は、カロリー、マクロ栄養素(タンパク質、炭水化物、脂肪)、部分サイズである。
また、パブリックリリースを予定している新しい食品画像データセットであるACETADAについても紹介する。
このオープンデータセットは、栄養士が検証した栄養情報を提供し、我々の分析の基礎となる。
8つのLMM(4つのオープンウェイト、4つのクローズドウェイト)に対する評価は、まず、画像のみによる迅速なプロンプトよりもコンテキストメタデータの統合の利点を確立する。
次に、この文脈情報の導入が、Chain-of-Thought、Multimodal Chain-of-Thought、Scale Hint、Few-Shot、Expert Personaなどの推論修飾体の有効性を高めることを実証する。
実験結果から, 即時的プロンプト戦略によりメタデータをインテリジェントに統合すると, 栄養価の予測値において, 平均絶対誤差 (MAE) と平均絶対誤差 (MAPE) が著しく減少することが示された。
この研究は、栄養分析を改善するための文脈認識型LMMの可能性を強調している。
関連論文リスト
- Advancing Food Nutrition Estimation via Visual-Ingredient Feature Fusion [69.84988999191343]
我々はファストフード(FastFood)について紹介する。ファストフード(FastFood)は、908のファストフードカテゴリーに84,446のイメージを持つデータセットで、成分や栄養のアノテーションが特徴である。
栄養推定の精度を高めるために,新しいモデル非依存型ビジュアル・イングレディエント・フィーチャー・フュージョン (VIF$2$) 法を提案する。
論文 参考訳(メタデータ) (2025-05-13T17:01:21Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Dietary Assessment with Multimodal ChatGPT: A Systematic Analysis [17.333822848423708]
本研究は、食事アセスメントの領域におけるマルチモーダルChatGPTの適用について検討する。
モデルを特定の言語プロンプトで導くことで、GPT-4Vは、米やパンのような一般的な主食を認識することから、バンクーやウグリといった地域料理を正確に識別するようになる。
GPT-4Vは、周囲の物体をスケール基準として利用し、食品の部位サイズを推定し、食品の重量を栄養分に翻訳する精度をさらに高める。
論文 参考訳(メタデータ) (2023-12-14T01:26:45Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。