論文の概要: Large Scale Visual Food Recognition
- arxiv url: http://arxiv.org/abs/2103.16107v2
- Date: Wed, 31 Mar 2021 05:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 11:59:43.417922
- Title: Large Scale Visual Food Recognition
- Title(参考訳): 大規模視覚食品認識
- Authors: Weiqing Min and Zhiling Wang and Yuxin Liu and Mengjiang Luo and
Liping Kang and Xiaoming Wei and Xiaolin Wei and Shuqiang Jiang
- Abstract要約: これは2000のカテゴリと100万以上のイメージを持つ、最大規模の食品認識データセットです。
food2kはそれらをカテゴリとイメージの両方で1桁ずつバイパスする。
食品認識のためのディーププログレッシブ領域強化ネットワークを提案します。
- 参考スコア(独自算出の注目度): 43.43598316339732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food recognition plays an important role in food choice and intake, which is
essential to the health and well-being of humans. It is thus of importance to
the computer vision community, and can further support many food-oriented
vision and multimodal tasks. Unfortunately, we have witnessed remarkable
advancements in generic visual recognition for released large-scale datasets,
yet largely lags in the food domain. In this paper, we introduce Food2K, which
is the largest food recognition dataset with 2,000 categories and over 1
million images.Compared with existing food recognition datasets, Food2K
bypasses them in both categories and images by one order of magnitude, and thus
establishes a new challenging benchmark to develop advanced models for food
visual representation learning. Furthermore, we propose a deep progressive
region enhancement network for food recognition, which mainly consists of two
components, namely progressive local feature learning and region feature
enhancement. The former adopts improved progressive training to learn diverse
and complementary local features, while the latter utilizes self-attention to
incorporate richer context with multiple scales into local features for further
local feature enhancement. Extensive experiments on Food2K demonstrate the
effectiveness of our proposed method. More importantly, we have verified better
generalization ability of Food2K in various tasks, including food recognition,
food image retrieval, cross-modal recipe retrieval, food detection and
segmentation. Food2K can be further explored to benefit more food-relevant
tasks including emerging and more complex ones (e.g., nutritional understanding
of food), and the trained models on Food2K can be expected as backbones to
improve the performance of more food-relevant tasks. We also hope Food2K can
serve as a large scale fine-grained visual recognition benchmark.
- Abstract(参考訳): 食品の認識は、人間の健康と健康に不可欠な食品の選択と摂取において重要な役割を担っている。
したがって、コンピュータビジョンコミュニティにとって重要であり、多くの食品指向のビジョンとマルチモーダルなタスクをさらにサポートすることができる。
残念ながら、私たちは、大規模なデータセットのリリースに対して、一般的な視覚認識の顕著な進歩を目撃しました。
本稿では,2000のカテゴリと100万以上の画像を持つ,最大規模の食品認識データセットであるfood2kを紹介する。既存の食品認識データセットと比較して,food2kは2つのカテゴリとイメージを1桁の桁でバイパスし,食品視覚表現学習のための高度なモデルを開発するための新たな挑戦的ベンチマークを確立する。
さらに, 食品認識のための深層進行領域拡張ネットワークを提案し, 主に, 局所的特徴学習と地域特徴増強という2つの要素から構成されている。
前者は多様で相補的な局所的特徴を学習するために進歩的訓練を導入し、後者は自己注意を利用して、よりリッチなコンテキストと複数のスケールを局所的特徴に組み込んで、さらなる局所的特徴の強化を行う。
食品2Kの広範囲な実験により,提案手法の有効性が示された。
さらに,食品認識,食品画像検索,クロスモーダルレシピ検索,食品検出,セグメンテーションなど,さまざまなタスクにおけるFood2Kの一般化能力を検証した。
食品2Kは、新しく、より複雑なもの(例えば、食物の栄養学的理解)を含む、食品関連タスクの恩恵を受けるためにさらに探索され、食品関連タスクのパフォーマンスを改善するために、食品2Kのトレーニングされたモデルがバックボーンとして期待できる。
また、food2kが大規模なきめ細かなビジュアル認識ベンチマークになることも期待しています。
関連論文リスト
- MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。
実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - Long-Tailed Continual Learning For Visual Food Recognition [5.377869029561348]
実生活における食品イメージの分布は通常、少数の人気食品が他のものよりも頻繁に消費されるため、長い目で見るのが一般的である。
本稿では,長期連続学習のための新しいエンドツーエンドフレームワークを提案し,破滅的な忘れを効果的に解決する。
また,クラスアクティベーションマップ(CAM)とCutMixを統合した新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T00:55:05Z) - A Mobile Food Recognition System for Dietary Assessment [6.982738885923204]
我々は,生活支援のための食品認識アプリケーションの開発に焦点をあてる。
このタスクにMobilenet-v2アーキテクチャを使うことは、正確性とメモリ使用量の両方において有益である。
開発されたモバイルアプリケーションは、画像を介して自動食品認識において視覚障害者に役立てる可能性がある。
論文 参考訳(メタデータ) (2022-04-20T12:49:36Z) - Towards Building a Food Knowledge Graph for Internet of Food [66.57235827087092]
食品分類から食品分類、食品知識グラフまで、食品知識組織の進化を概観する。
食品知識グラフは、食品検索と質問回答(QA)、パーソナライズされた食事レコメンデーション、食品分析、可視化において重要な役割を果たす。
食品知識グラフの今後の方向性は、マルチモーダル食品知識グラフや食品インテリジェンスなど、いくつかの分野をカバーする。
論文 参考訳(メタデータ) (2021-07-13T06:26:53Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。