Fugu-MT 論文翻訳(概要): Large Scale Visual Food Recognition

論文の概要: Large Scale Visual Food Recognition

arxiv url: http://arxiv.org/abs/2103.16107v1
Date: Tue, 30 Mar 2021 06:41:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-31 14:58:14.388853
Title: Large Scale Visual Food Recognition
Title（参考訳）: 大規模視覚食品認識
Authors: Weiqing Min and Zhiling Wang and Yuxin Liu and Mengjiang Luo and Liping Kang and Xiaoming Wei and Xiaolin Wei and Shuqiang Jiang
Abstract要約: これは2000のカテゴリと100万以上のイメージを持つ、最大規模の食品認識データセットです。 food2kはそれらをカテゴリとイメージの両方で1桁ずつバイパスする。食品認識のためのディーププログレッシブ領域強化ネットワークを提案します。
参考スコア（独自算出の注目度）: 43.43598316339732
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Food recognition plays an important role in food choice and intake, which is essential to the health and well-being of humans. It is thus of importance to the computer vision community, and can further support many food-oriented vision and multimodal tasks. Unfortunately, we have witnessed remarkable advancements in generic visual recognition for released large-scale datasets, yet largely lags in the food domain. In this paper, we introduce Food2K, which is the largest food recognition dataset with 2,000 categories and over 1 million images.Compared with existing food recognition datasets, Food2K bypasses them in both categories and images by one order of magnitude, and thus establishes a new challenging benchmark to develop advanced models for food visual representation learning. Furthermore, we propose a deep progressive region enhancement network for food recognition, which mainly consists of two components, namely progressive local feature learning and region feature enhancement. The former adopts improved progressive training to learn diverse and complementary local features, while the latter utilizes self-attention to incorporate richer context with multiple scales into local features for further local feature enhancement. Extensive experiments on Food2K demonstrate the effectiveness of our proposed method. More importantly, we have verified better generalization ability of Food2K in various tasks, including food recognition, food image retrieval, cross-modal recipe retrieval, food detection and segmentation. Food2K can be further explored to benefit more food-relevant tasks including emerging and more complex ones (e.g., nutritional understanding of food), and the trained models on Food2K can be expected as backbones to improve the performance of more food-relevant tasks. We also hope Food2K can serve as a large scale fine-grained visual recognition benchmark.
Abstract（参考訳）: 食品の認識は、人間の健康と健康に不可欠な食品の選択と摂取において重要な役割を担っている。したがって、コンピュータビジョンコミュニティにとって重要であり、多くの食品指向のビジョンとマルチモーダルなタスクをさらにサポートすることができる。残念ながら、私たちは、大規模なデータセットのリリースに対して、一般的な視覚認識の顕著な進歩を目撃しました。本稿では,2000のカテゴリと100万以上の画像を持つ,最大規模の食品認識データセットであるfood2kを紹介する。既存の食品認識データセットと比較して,food2kは2つのカテゴリとイメージを1桁の桁でバイパスし,食品視覚表現学習のための高度なモデルを開発するための新たな挑戦的ベンチマークを確立する。さらに, 食品認識のための深層進行領域拡張ネットワークを提案し, 主に, 局所的特徴学習と地域特徴増強という2つの要素から構成されている。前者は多様で相補的な局所的特徴を学習するために進歩的訓練を導入し、後者は自己注意を利用して、よりリッチなコンテキストと複数のスケールを局所的特徴に組み込んで、さらなる局所的特徴の強化を行う。食品2Kの広範囲な実験により,提案手法の有効性が示された。さらに,食品認識,食品画像検索,クロスモーダルレシピ検索,食品検出,セグメンテーションなど,さまざまなタスクにおけるFood2Kの一般化能力を検証した。食品2Kは、新しく、より複雑なもの(例えば、食物の栄養学的理解)を含む、食品関連タスクの恩恵を受けるためにさらに探索され、食品関連タスクのパフォーマンスを改善するために、食品2Kのトレーニングされたモデルがバックボーンとして期待できる。また、food2kが大規模なきめ細かなビジュアル認識ベンチマークになることも期待しています。

関連論文リスト

LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets [54.527878056610156]
食品認識におけるこれらの課題に対処するために,大規模言語モデル(LLM)を用いた枠組みを提案する。まず LLM を利用して食品イメージを解析し,食品のタイトルや材料を生成する。そして、生成したテキストと食品の画像を異なるドメインから共有埋め込み空間に投影し、ペアの類似性を最大化する。
論文参考訳（メタデータ） (2025-11-20T04:38:56Z)
SFOOD: A Multimodal Benchmark for Comprehensive Food Attribute Analysis Beyond RGB with Spectral Insights [12.320129303732822]
最初の大規模なスペクトル食品(SFOOD)ベンチマークスイートを構築した。このベンチマークは、食品カテゴリー3,266と、主要食品カテゴリー17の2,351kのデータポイントで構成されている。私たちのベンチマークはオープンソースで、さまざまな食品分析タスクのために継続的にイテレーションされます。
論文参考訳（メタデータ） (2025-07-06T15:00:21Z)
Advancing Food Nutrition Estimation via Visual-Ingredient Feature Fusion [69.84988999191343]
我々はファストフード(FastFood)について紹介する。ファストフード(FastFood)は、908のファストフードカテゴリーに84,446のイメージを持つデータセットで、成分や栄養のアノテーションが特徴である。栄養推定の精度を高めるために,新しいモデル非依存型ビジュアル・イングレディエント・フィーチャー・フュージョン (VIF$2$) 法を提案する。
論文参考訳（メタデータ） (2025-05-13T17:01:21Z)
MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文参考訳（メタデータ） (2024-09-03T15:02:52Z)
NutritionVerse-Direct: Exploring Deep Neural Networks for Multitask Nutrition Prediction from Food Images [63.314702537010355]
自己申告法はしばしば不正確であり、重大な偏見に悩まされる。近年、食品画像から栄養情報を予測するためにコンピュータビジョン予測システムを用いた研究が進められている。本稿では,様々なニューラルネットワークアーキテクチャを活用することにより,食事摂取量推定の有効性を高めることを目的とする。
論文参考訳（メタデータ） (2024-05-13T14:56:55Z)
From Canteen Food to Daily Meals: Generalizing Food Recognition to More Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文参考訳（メタデータ） (2024-03-12T08:32:23Z)
Long-Tailed Continual Learning For Visual Food Recognition [5.377869029561348]
実生活における食品イメージの分布は通常、少数の人気食品が他のものよりも頻繁に消費されるため、長い目で見るのが一般的である。本稿では,長期連続学習のための新しいエンドツーエンドフレームワークを提案し,破滅的な忘れを効果的に解決する。また,クラスアクティベーションマップ(CAM)とCutMixを統合した新しいデータ拡張手法を提案する。
論文参考訳（メタデータ） (2023-07-01T00:55:05Z)
A Mobile Food Recognition System for Dietary Assessment [6.982738885923204]
我々は,生活支援のための食品認識アプリケーションの開発に焦点をあてる。このタスクにMobilenet-v2アーキテクチャを使うことは、正確性とメモリ使用量の両方において有益である。開発されたモバイルアプリケーションは、画像を介して自動食品認識において視覚障害者に役立てる可能性がある。
論文参考訳（メタデータ） (2022-04-20T12:49:36Z)
Towards Building a Food Knowledge Graph for Internet of Food [66.57235827087092]
食品分類から食品分類、食品知識グラフまで、食品知識組織の進化を概観する。食品知識グラフは、食品検索と質問回答(QA)、パーソナライズされた食事レコメンデーション、食品分析、可視化において重要な役割を果たす。食品知識グラフの今後の方向性は、マルチモーダル食品知識グラフや食品インテリジェンスなど、いくつかの分野をカバーする。
論文参考訳（メタデータ） (2021-07-13T06:26:53Z)
ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文参考訳（メタデータ） (2020-08-13T02:48:27Z)
Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文参考訳（メタデータ） (2020-03-09T07:41:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。