論文の概要: A Large-Scale Benchmark for Food Image Segmentation
- arxiv url: http://arxiv.org/abs/2105.05409v1
- Date: Wed, 12 May 2021 03:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:16:53.805756
- Title: A Large-Scale Benchmark for Food Image Segmentation
- Title(参考訳): 食品画像分割のための大規模ベンチマーク
- Authors: Xiongwei Wu, Xin Fu, Ying Liu, Ee-Peng Lim, Steven C.H. Hoi, Qianru
Sun
- Abstract要約: 我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
- 参考スコア(独自算出の注目度): 62.28029856051079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food image segmentation is a critical and indispensible task for developing
health-related applications such as estimating food calories and nutrients.
Existing food image segmentation models are underperforming due to two reasons:
(1) there is a lack of high quality food image datasets with fine-grained
ingredient labels and pixel-wise location masks -- the existing datasets either
carry coarse ingredient labels or are small in size; and (2) the complex
appearance of food makes it difficult to localize and recognize ingredients in
food images, e.g., the ingredients may overlap one another in the same image,
and the identical ingredient may appear distinctly in different food images. In
this work, we build a new food image dataset FoodSeg103 (and its extension
FoodSeg154) containing 9,490 images. We annotate these images with 154
ingredient classes and each image has an average of 6 ingredient labels and
pixel-wise masks. In addition, we propose a multi-modality pre-training
approach called ReLeM that explicitly equips a segmentation model with rich and
semantic food knowledge. In experiments, we use three popular semantic
segmentation methods (i.e., Dilated Convolution based, Feature Pyramid based,
and Vision Transformer based) as baselines, and evaluate them as well as ReLeM
on our new datasets. We believe that the FoodSeg103 (and its extension
FoodSeg154) and the pre-trained models using ReLeM can serve as a benchmark to
facilitate future works on fine-grained food image understanding. We make all
these datasets and methods public at
\url{https://xiongweiwu.github.io/foodseg103.html}.
- Abstract(参考訳): 食品画像のセグメンテーションは、食品のカロリーや栄養素を推定するといった健康関連アプリケーションを開発する上で、重要かつ不可欠である。
Existing food image segmentation models are underperforming due to two reasons: (1) there is a lack of high quality food image datasets with fine-grained ingredient labels and pixel-wise location masks -- the existing datasets either carry coarse ingredient labels or are small in size; and (2) the complex appearance of food makes it difficult to localize and recognize ingredients in food images, e.g., the ingredients may overlap one another in the same image, and the identical ingredient may appear distinctly in different food images.
本研究では,9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築した。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
さらに,多モード事前学習手法であるrelemを提案する。relemは,食品の知識が豊富で意味的なセグメンテーションモデルに明示的に対応している。
実験では、3つの一般的なセマンティックセグメンテーション手法(Dilated Convolution based、Feature Pyramid based、Vision Transformer based)をベースラインとして使用し、新しいデータセット上でReLeMと同様に評価する。
私たちは、FoodSeg103(およびその拡張FoodSeg154)とReLeMを使用した事前訓練されたモデルが、詳細な食品画像理解のための将来の作業を促進するためのベンチマークとなると信じています。
これらのデータセットとメソッドはすべて、 \url{https://xiongweiwu.github.io/foodseg103.html}で公開しています。
関連論文リスト
- OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation [43.65207396061584]
OVFoodSegは、ビジュアルコンテキストによるテキスト埋め込みを強化するフレームワークである。
OVFoodSegのトレーニングプロセスは、FoodLearnerの事前トレーニングと、セグメンテーションのためのその後の学習フェーズの2つの段階に分けられる。
以前のモデルの欠陥に対処することで、OVFoodSegは大幅な改善を示し、FoodSeg103データセット上での平均的インターセクション(mIoU)を4.9%増加させた。
論文 参考訳(メタデータ) (2024-04-01T18:26:29Z) - Recognizing Multiple Ingredients in Food Images Using a
Single-Ingredient Classification Model [4.409722014494348]
本研究では,食品画像から区切られた成分を認識するための高度なアプローチを提案する。
本手法は、位置決めおよびスライドウインドウ技術を用いて、成分の候補領域をローカライズする。
分類モデルの効率を向上する新しいモデルプルーニング法を提案する。
論文 参考訳(メタデータ) (2024-01-26T00:46:56Z) - NutritionVerse-Real: An Open Access Manually Collected 2D Food Scene
Dataset for Dietary Intake Estimation [68.49526750115429]
食事摂取推定のための2D食品シーンデータセットであるNutritionVerse-Realを導入する。
NutritionVerse-Realデータセットは、実生活における食品シーンのイメージを手作業で収集し、各成分の重量を測定し、各料理の食生活内容を計算することによって作成されました。
論文 参考訳(メタデータ) (2023-11-20T11:05:20Z) - Muti-Stage Hierarchical Food Classification [9.013592803864086]
トレーニングプロセス中に食品を反復的にクラスタリングし,マージすることで,食品分類のための多段階階層的枠組みを提案する。
本手法は,VFN栄養データセットを用いて評価し,食品の種類と食品の分類の両面で既存の研究と比較して有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-03T04:45:44Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Towards the Creation of a Nutrition and Food Group Based Image Database [58.429385707376554]
栄養・食品群に基づく画像データベースを構築するための枠組みを提案する。
米国農務省食品栄養データベース(FNDDS)における食品群に基づく食品コードリンクプロトコルを設計する。
提案手法は16,114個の食品データセットを含む栄養・食品群に基づく画像データベースを構築するために用いられる。
論文 参考訳(メタデータ) (2022-06-05T02:41:44Z) - Saliency-Aware Class-Agnostic Food Image Segmentation [10.664526852464812]
クラス別食品画像分割法を提案する。
画像の前後の情報を利用すれば、目立たないオブジェクトを見つけることで、食べ物のイメージをセグメンテーションすることができる。
本手法は,食餌研究から収集した食品画像を用いて検証する。
論文 参考訳(メタデータ) (2021-02-13T08:05:19Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。