論文の概要: ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network
- arxiv url: http://arxiv.org/abs/2008.05655v1
- Date: Thu, 13 Aug 2020 02:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:50:34.721799
- Title: ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network
- Title(参考訳): ISIA Food-500: スタック型グローバルローカルアテンションネットワークによる大規模食品認識のためのデータセット
- Authors: Weiqing Min, Linhu Liu, Zhiling Wang, Zhengdong Luo, Xiaoming Wei,
Xiaolin Wei, Shuqiang Jiang
- Abstract要約: ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
- 参考スコア(独自算出の注目度): 50.7720194859196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Food recognition has received more and more attention in the multimedia
community for its various real-world applications, such as diet management and
self-service restaurants. A large-scale ontology of food images is urgently
needed for developing advanced large-scale food recognition algorithms, as well
as for providing the benchmark dataset for such algorithms. To encourage
further progress in food recognition, we introduce the dataset ISIA Food- 500
with 500 categories from the list in the Wikipedia and 399,726 images, a more
comprehensive food dataset that surpasses existing popular benchmark datasets
by category coverage and data volume. Furthermore, we propose a stacked
global-local attention network, which consists of two sub-networks for food
recognition. One subnetwork first utilizes hybrid spatial-channel attention to
extract more discriminative features, and then aggregates these multi-scale
discriminative features from multiple layers into global-level representation
(e.g., texture and shape information about food). The other one generates
attentional regions (e.g., ingredient relevant regions) from different regions
via cascaded spatial transformers, and further aggregates these multi-scale
regional features from different layers into local-level representation. These
two types of features are finally fused as comprehensive representation for
food recognition. Extensive experiments on ISIA Food-500 and other two popular
benchmark datasets demonstrate the effectiveness of our proposed method, and
thus can be considered as one strong baseline. The dataset, code and models can
be found at http://123.57.42.89/FoodComputing-Dataset/ISIA-Food500.html.
- Abstract(参考訳): ダイエット管理やセルフサービスレストランなど、さまざまな現実のアプリケーションによって、マルチメディアコミュニティでは食品認識がますます注目を集めている。
食品画像の大規模オントロジーは、高度な大規模食品認識アルゴリズムの開発や、そのようなアルゴリズムのベンチマークデータセットの提供に緊急に必要である。
食品認識のさらなる進歩を促すために、wikipediaの500のカテゴリからなるデータセットisia food-500と、既存の一般的なベンチマークデータセットをカテゴリ範囲とデータボリュームで上回る、より包括的な食品データセット399,726のイメージを紹介する。
さらに、食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
1つのサブネットワークは、まず、より識別的な特徴を抽出するために、ハイブリッドな空間チャネルアテンションを使用し、次に複数の層からこれらのマルチスケールの識別的特徴をグローバルレベルの表現(例えば、食品のテクスチャや形状情報)に集約する。
他の領域は、カスケード空間変換器を介して異なる領域から注意領域(例えば、成分関連領域)を生成し、さらに異なるレイヤからこれらの複数スケールの地域特徴を局所的な表現に集約する。
この2つの特徴は最終的に食品認識のための包括的な表現として融合される。
ISIA Food-500および他の2つの人気のあるベンチマークデータセットに対する大規模な実験により,提案手法の有効性が示された。
データセット、コード、モデルはhttp://123.57.42.89/FoodComputing-Dataset/ISIA-Food500.htmlで見ることができる。
関連論文リスト
- MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。
実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Mining Discriminative Food Regions for Accurate Food Recognition [16.78437844398436]
本稿では,入力画像の分類の精度を一次ネットワークが維持する新しいネットワークアーキテクチャを提案する。
補助ネットワークは、識別食品地域を敵対的にマイニングし、地域ネットワークは、その結果のマイニング地域を分類する。
提案アーキテクチャは、PAR-Netと表現され、エンドツーエンドのトレーニングが可能で、オンライン方式で識別領域をハイライトする。
論文 参考訳(メタデータ) (2022-07-08T05:09:24Z) - FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via
Multi-Scale Feature Decoupling Network [55.49022825759331]
高度な食品ロゴ検出アルゴリズムを開発するには、大規模な食品ロゴデータセットが緊急に必要である。
FoodLogoDet-1500は、1500のカテゴリ、約10万の画像、約15万個の手動で注釈付けされた食品ロゴオブジェクトを備えた、新しい大規模一般公開の食品ロゴデータセットである。
食品のロゴを識別する手法として,MFDNet(Multi-scale Feature Decoupling Network)を提案する。
論文 参考訳(メタデータ) (2021-08-10T12:47:04Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Large Scale Visual Food Recognition [43.43598316339732]
これは2000のカテゴリと100万以上のイメージを持つ、最大規模の食品認識データセットです。
food2kはそれらをカテゴリとイメージの両方で1桁ずつバイパスする。
食品認識のためのディーププログレッシブ領域強化ネットワークを提案します。
論文 参考訳(メタデータ) (2021-03-30T06:41:42Z) - Visual Aware Hierarchy Based Food Recognition [10.194167945992938]
本稿では,コンボリューショナルニューラルネットワーク(CNN)をバックボーンアーキテクチャとして用いた2段階の食品認識システムを提案する。
食品ローカライゼーションのステップは、食品領域を識別するFaster R-CNN法の実装に基づいている。
食品分類工程では、視覚的に類似した食品カテゴリーを自動的にまとめて階層構造を生成することができる。
論文 参考訳(メタデータ) (2020-12-06T20:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。