論文の概要: VinaFood21: A Novel Dataset for Evaluating Vietnamese Food Recognition
- arxiv url: http://arxiv.org/abs/2108.02929v1
- Date: Fri, 6 Aug 2021 03:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:34:54.112416
- Title: VinaFood21: A Novel Dataset for Evaluating Vietnamese Food Recognition
- Title(参考訳): VinaFood21:ベトナムの食品認識を評価するための新しいデータセット
- Authors: Thuan Trong Nguyen, Thuan Q. Nguyen, Dung Vo, Vi Nguyen, Ngoc Ho,
Nguyen D. Vo, Kiet Van Nguyen, Khang Nguyen
- Abstract要約: 本稿ではベトナムの食品データセットであるVinaFood21について紹介する。
10,044枚の画像と6,682枚のテスト画像を使って、VinaFood21データセットの各食品を分類し、平均精度は74.81%に達した。
- 参考スコア(独自算出の注目度): 0.5716776378742904
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vietnam is such an attractive tourist destination with its stunning and
pristine landscapes and its top-rated unique food and drink. Among thousands of
Vietnamese dishes, foreigners and native people are interested in easy-to-eat
tastes and easy-to-do recipes, along with reasonable prices, mouthwatering
flavors, and popularity. Due to the diversity and almost all the dishes have
significant similarities and the lack of quality Vietnamese food datasets, it
is hard to implement an auto system to classify Vietnamese food, therefore,
make people easier to discover Vietnamese food. This paper introduces a new
Vietnamese food dataset named VinaFood21, which consists of 13,950 images
corresponding to 21 dishes. We use 10,044 images for model training and 6,682
test images to classify each food in the VinaFood21 dataset and achieved an
average accuracy of 74.81% when fine-tuning CNN EfficientNet-B0.
(https://github.com/nguyenvd-uit/uit-together-dataset)
- Abstract(参考訳): ベトナムは非常に魅力的な観光地であり、印象的かつ原始的な景観と、ユニークな飲食が特徴である。
何千ものベトナム料理の中で、外国人や先住民は食味や料理のレシピに興味を持ち、合理的な価格、口水味、人気がある。
多様性とほぼすべての料理に顕著な類似性と品質のベトナム料理データセットの欠如のため、ベトナム料理を分類するオートシステムを実装することは困難であり、ベトナム料理の発見が容易である。
そこで本稿では,ベトナムにおける21の料理に対応する13,950の画像からなる新しい食品データセットvinafood21について紹介する。
モデルトレーニングには10,044画像,vinafood21データセットでは6,682画像を用い,cnn efficientnet-b0で平均74.81%の精度を得た。
(https://github.com/nguyenvd-uit/uit-together-dataset)
関連論文リスト
- WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture [60.51749998013166]
中国各地の食文化の複雑な特徴を,手作業でキュレートした,きめ細かい画像テキストデータセットであるFoodieQAを紹介した。
視覚言語モデル(VLM)と大規模言語モデル(LLM)を,新たに収集した未確認食品画像およびそれに対応する質問に対して評価する。
以上の結果から,食品とその文化的意味の理解は依然として困難かつ未解明の方向にあることが示唆された。
論文 参考訳(メタデータ) (2024-06-16T17:59:32Z) - KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain [3.495640663645263]
KTVICはベトナムの総合的な画像キャプチャーデータセットで、幅広い日々の活動をカバーしている。
このデータセットは4,327枚の画像と21,635個のベトナム語キャプションで構成され、ベトナム語で画像キャプションを推進するための貴重な資料となっている。
我々は、データセットのベースラインとして、さまざまなディープニューラルネットワークを使用して実験を行い、BLEU、METEOR、CIDEr、ROUGEといった標準画像キャプションメトリクスを使用して評価する。
論文 参考訳(メタデータ) (2024-01-16T04:01:49Z) - A Central Asian Food Dataset for Personalized Dietary Interventions,
Extended Abstract [2.449909275410288]
我々は,公共消費者と研究者の両方にとって容易にアクセス可能な,地域食品の信頼性の高いデータセットを作成することを目指している。
最終データセットには42の食品カテゴリーと16,000以上の国産料理の画像が含まれている。
我々は,ResNet152ニューラルネットワークモデルを用いて,CAFDの分類精度88.70%(42クラス)を達成した。
論文 参考訳(メタデータ) (2023-05-12T05:26:55Z) - Towards the Creation of a Nutrition and Food Group Based Image Database [58.429385707376554]
栄養・食品群に基づく画像データベースを構築するための枠組みを提案する。
米国農務省食品栄養データベース(FNDDS)における食品群に基づく食品コードリンクプロトコルを設計する。
提案手法は16,114個の食品データセットを含む栄養・食品群に基づく画像データベースを構築するために用いられる。
論文 参考訳(メタデータ) (2022-06-05T02:41:44Z) - Object Detection in Indian Food Platters using Transfer Learning with
YOLOv4 [2.244485584005043]
インド料理を包括的にラベル付けした「IndianFood10」は、インド料理によく見られる10種類の食品を含む。
また、従来の10種類のインド料理クラスを含む10種類のデータセット、IndianFood20の拡張も提供しています。
論文 参考訳(メタデータ) (2022-05-10T12:28:01Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - COVID-19 Named Entity Recognition for Vietnamese [6.17059264011429]
ベトナムで最初の手作業によるcovid-19ドメイン固有データセットについて紹介する。
私たちのデータセットは、新たに定義されたエンティティタイプを持つ名前付きエンティティ認識タスクにアノテートされます。
当社のデータセットには、既存のベトナムのNERデータセットと比較して最大数のエンティティが含まれています。
論文 参考訳(メタデータ) (2021-04-08T16:35:34Z) - A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。
このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。
UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文 参考訳(メタデータ) (2020-09-30T15:06:56Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z) - Placepedia: Comprehensive Place Understanding with Multi-Faceted
Annotations [79.80036503792985]
Placepediaは、240万のユニークな場所から3500万枚以上の写真を集めた大規模な場所データセットです。
写真に加えて、各場所にはGDP、人口など、膨大な多面的な情報も付属している。
このデータセットは大量のデータと豊富なアノテーションを持ち、様々な研究を行うことができる。
論文 参考訳(メタデータ) (2020-07-07T20:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。