論文の概要: SFOOD: A Multimodal Benchmark for Comprehensive Food Attribute Analysis Beyond RGB with Spectral Insights
- arxiv url: http://arxiv.org/abs/2507.04412v1
- Date: Sun, 06 Jul 2025 15:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.168808
- Title: SFOOD: A Multimodal Benchmark for Comprehensive Food Attribute Analysis Beyond RGB with Spectral Insights
- Title(参考訳): SFOOD: スペクトルインサイトを用いたRGBを越えた総合的食品属性分析のためのマルチモーダルベンチマーク
- Authors: Zhenbo Xu, Jinghan Yang, Gong Huang, Jiqing Feng, Liu Liu, Ruihan Sun, Ajin Meng, Zhuo Zhang, Zhaofeng He,
- Abstract要約: 最初の大規模なスペクトル食品(SFOOD)ベンチマークスイートを構築した。
このベンチマークは、食品カテゴリー3,266と、主要食品カテゴリー17の2,351kのデータポイントで構成されている。
私たちのベンチマークはオープンソースで、さまざまな食品分析タスクのために継続的にイテレーションされます。
- 参考スコア(独自算出の注目度): 12.320129303732822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise and development of computer vision and LLMs, intelligence is everywhere, especially for people and cars. However, for tremendous food attributes (such as origin, quantity, weight, quality, sweetness, etc.), existing research still mainly focuses on the study of categories. The reason is the lack of a large and comprehensive benchmark for food. Besides, many food attributes (such as sweetness, weight, and fine-grained categories) are challenging to accurately percept solely through RGB cameras. To fulfill this gap and promote the development of intelligent food analysis, in this paper, we built the first large-scale spectral food (SFOOD) benchmark suite. We spent a lot of manpower and equipment costs to organize existing food datasets and collect hyperspectral images of hundreds of foods, and we used instruments to experimentally determine food attributes such as sweetness and weight. The resulting benchmark consists of 3,266 food categories and 2,351 k data points for 17 main food categories. Extensive evaluations find that: (i) Large-scale models are still poor at digitizing food. Compared to people and cars, food has gradually become one of the most difficult objects to study; (ii) Spectrum data are crucial for analyzing food properties (such as sweetness). Our benchmark will be open source and continuously iterated for different food analysis tasks.
- Abstract(参考訳): コンピュータビジョンとLLMの台頭と発展により、知性は、特に人や車にとって、至る所にある。
しかし、食品の特質(原産地、量、重量、品質、甘味など)はいまだにカテゴリーの研究に重点を置いている。
その理由は、食品に関する大規模かつ包括的なベンチマークが欠如していることにある。
さらに、多くの食品特性(甘味、重量、細粒度など)は、RGBカメラでのみ正確に認識することが困難である。
このギャップを埋め、インテリジェントな食品分析の開発を促進するため、我々はSFOODベンチマークスイートを構築した。
我々は、既存の食品データセットを整理し、数百の食品のハイパースペクトル画像を集めるために、多くの人力と設備費用を費やし、甘味や重量などの食品特性を実験的に決定するために、計器を使用した。
結果は、食品カテゴリー3,266と、主要食品カテゴリー17の2,351kのデータポイントから成っている。
大規模な評価は以下の通りである。
(i)大規模モデルは依然として食品のデジタル化が苦手である。
人や車に比べれば、食べ物は次第に、研究する上で最も難しいものの一つになってきた。
(II)甘味などの食品特性の分析にはスペクトルデータが不可欠である。
私たちのベンチマークはオープンソースで、さまざまな食品分析タスクのために継続的にイテレーションされます。
関連論文リスト
- MetaFood3D: 3D Food Dataset with Nutrition Values [52.16894900096017]
このデータセットは、131のカテゴリにまたがって、743の精細にスキャンされ、ラベル付けされた3D食品オブジェクトで構成されている。
我々のMetaFood3Dデータセットはクラス内の多様性を重視しており、テクスチャメッシュファイル、RGB-Dビデオ、セグメンテーションマスクなどのリッチなモダリティを含んでいる。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture [60.51749998013166]
中国各地の食文化の複雑な特徴を,手作業でキュレートした,きめ細かい画像テキストデータセットであるFoodieQAを紹介した。
視覚言語モデル(VLM)と大規模言語モデル(LLM)を,新たに収集した未確認食品画像およびそれに対応する質問に対して評価する。
以上の結果から,食品とその文化的意味の理解は依然として困難かつ未解明の方向にあることが示唆された。
論文 参考訳(メタデータ) (2024-06-16T17:59:32Z) - FoodSky: A Food-oriented Large Language Model that Passes the Chef and Dietetic Examination [37.11551779015218]
食品データを理解するために食品指向の大規模言語モデル(LLM)を導入する。
中国料理の複雑さと典型性を考えると、我々はまず1つの総合的な中華料理コーパス「FoodEarth」を構築した。
そこで我々は,HTRAG(Herarchical Topic Retrieval Augmented Generation)機構とTS3M(Selective State Space Model)を提案する。
論文 参考訳(メタデータ) (2024-06-11T01:27:00Z) - NutritionVerse-3D: A 3D Food Model Dataset for Nutritional Intake
Estimation [65.47310907481042]
高齢者の4人に1人は栄養不良です。
機械学習とコンピュータビジョンは、食品の自動栄養トラッキング方法の約束を示す。
NutritionVerse-3Dは、105個の3D食品モデルの大規模な高解像度データセットである。
論文 参考訳(メタデータ) (2023-04-12T05:27:30Z) - Towards Building a Food Knowledge Graph for Internet of Food [66.57235827087092]
食品分類から食品分類、食品知識グラフまで、食品知識組織の進化を概観する。
食品知識グラフは、食品検索と質問回答(QA)、パーソナライズされた食事レコメンデーション、食品分析、可視化において重要な役割を果たす。
食品知識グラフの今後の方向性は、マルチモーダル食品知識グラフや食品インテリジェンスなど、いくつかの分野をカバーする。
論文 参考訳(メタデータ) (2021-07-13T06:26:53Z) - Large Scale Visual Food Recognition [43.43598316339732]
これは2000のカテゴリと100万以上のイメージを持つ、最大規模の食品認識データセットです。
food2kはそれらをカテゴリとイメージの両方で1桁ずつバイパスする。
食品認識のためのディーププログレッシブ領域強化ネットワークを提案します。
論文 参考訳(メタデータ) (2021-03-30T06:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。