論文の概要: Object Detection in Indian Food Platters using Transfer Learning with
YOLOv4
- arxiv url: http://arxiv.org/abs/2205.04841v1
- Date: Tue, 10 May 2022 12:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:44:58.698201
- Title: Object Detection in Indian Food Platters using Transfer Learning with
YOLOv4
- Title(参考訳): YOLOv4を用いた移動学習によるインド食品の物体検出
- Authors: Deepanshu Pandey, Purva Parmar, Gauri Toshniwal, Mansi Goel, Vishesh
Agrawal, Shivangi Dhiman, Lavanya Gupta and Ganesh Bagler
- Abstract要約: インド料理を包括的にラベル付けした「IndianFood10」は、インド料理によく見られる10種類の食品を含む。
また、従来の10種類のインド料理クラスを含む10種類のデータセット、IndianFood20の拡張も提供しています。
- 参考スコア(独自算出の注目度): 2.244485584005043
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Object detection is a well-known problem in computer vision. Despite this,
its usage and pervasiveness in the traditional Indian food dishes has been
limited. Particularly, recognizing Indian food dishes present in a single photo
is challenging due to three reasons: 1. Lack of annotated Indian food datasets
2. Non-distinct boundaries between the dishes 3. High intra-class variation. We
solve these issues by providing a comprehensively labelled Indian food dataset-
IndianFood10, which contains 10 food classes that appear frequently in a staple
Indian meal and using transfer learning with YOLOv4 object detector model. Our
model is able to achieve an overall mAP score of 91.8% and f1-score of 0.90 for
our 10 class dataset. We also provide an extension of our 10 class dataset-
IndianFood20, which contains 10 more traditional Indian food classes.
- Abstract(参考訳): 物体検出はコンピュータビジョンにおいてよく知られた問題である。
それにもかかわらず、伝統的なインド料理の使用と普及は制限されている。
特に1枚の写真に写っているインド料理の認識は3つの理由から困難である。
注釈付きインド食品データセットの欠如
2.皿間の不特定境界
3.高いクラス内変動
インド料理を包括的にラベル付けしたIndianFood10は、インド料理に頻繁に現れる10の食品クラスを含み、YOLOv4オブジェクト検出モデルを用いた移動学習を用いて、これらの問題を解決する。
私たちのモデルは、10クラスのデータセットで91.8%の総合マップスコアと0.90のf1スコアを達成できます。
また、従来の10のインド料理クラスを含む10クラスのdatasetindianfood20の拡張も提供しています。
関連論文リスト
- WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture [60.51749998013166]
中国各地の食文化の複雑な特徴を,手作業でキュレートした,きめ細かい画像テキストデータセットであるFoodieQAを紹介した。
視覚言語モデル(VLM)と大規模言語モデル(LLM)を,新たに収集した未確認食品画像およびそれに対応する質問に対して評価する。
以上の結果から,食品とその文化的意味の理解は依然として困難かつ未解明の方向にあることが示唆された。
論文 参考訳(メタデータ) (2024-06-16T17:59:32Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Dish detection in food platters: A framework for automated diet logging
and nutrition management [1.7855867849530096]
食品プラッターからのディッシュ検出は、視覚的に複雑な食品レイアウトのために難しい問題である。
本稿では,データコンパイル,アノテーション,最先端モデル同定など,ダイエット管理のためのエンドツーエンドの計算フレームワークを提案する。
このフレームワークは、複雑なプレゼンテーションで知られるインド料理の皿の文脈で実装されている。
論文 参考訳(メタデータ) (2023-05-12T15:25:58Z) - NutritionVerse-3D: A 3D Food Model Dataset for Nutritional Intake
Estimation [65.47310907481042]
高齢者の4人に1人は栄養不良です。
機械学習とコンピュータビジョンは、食品の自動栄養トラッキング方法の約束を示す。
NutritionVerse-3Dは、105個の3D食品モデルの大規模な高解像度データセットである。
論文 参考訳(メタデータ) (2023-04-12T05:27:30Z) - Assorted, Archetypal and Annotated Two Million (3A2M) Cooking Recipes
Dataset based on Active Learning [2.40907745415345]
それぞれのカテゴリにラベル付けされた200万の料理レシピのデータセットを新たに提示する。
データセットを構築するために、レシピをRecipeNLGデータセットから収集する。
私たちのデータセットには200万以上のレシピがあり、それぞれが分類され、信頼性スコアが関連付けられています。
論文 参考訳(メタデータ) (2023-03-27T07:53:18Z) - A Mobile Food Recognition System for Dietary Assessment [6.982738885923204]
我々は,生活支援のための食品認識アプリケーションの開発に焦点をあてる。
このタスクにMobilenet-v2アーキテクチャを使うことは、正確性とメモリ使用量の両方において有益である。
開発されたモバイルアプリケーションは、画像を介して自動食品認識において視覚障害者に役立てる可能性がある。
論文 参考訳(メタデータ) (2022-04-20T12:49:36Z) - TASTEset -- Recipe Dataset and Food Entities Recognition Benchmark [1.0569625612398386]
NERモデルは、レシピの処理に役立つ様々なタイプのエンティティを発見または推測することが期待されている。
データセットは700のレシピで構成され、13,000以上のエンティティを抽出する。
私たちは、名前付きエンティティ認識モデルの最先端のベースラインをいくつか提供しています。
論文 参考訳(メタデータ) (2022-04-16T10:52:21Z) - A Real-time Junk Food Recognition System based on Machine Learning [0.0]
20のジャンクフード分類から1万のデータポイントのデータセットを作成し、ジャンクフードの認識を試みた。
研究全体で98.05%の精度を達成したが、満足できた。
私たちの究極のゴールは、ジャンクフードを食べないようにし、健康に配慮するシステムを作ることです。
論文 参考訳(メタデータ) (2022-03-22T16:03:24Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。