論文の概要: Self-Supervised Visual Representation Learning on Food Images
- arxiv url: http://arxiv.org/abs/2303.09046v1
- Date: Thu, 16 Mar 2023 02:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:04:20.824994
- Title: Self-Supervised Visual Representation Learning on Food Images
- Title(参考訳): 食品画像を用いた自己監督型視覚表現学習
- Authors: Andrew Peng, Jiangpeng He, Fengqing Zhu
- Abstract要約: 既存の深層学習手法は、食品画像の人間のアノテーションに基づいて、下流タスクの視覚的表現を学習する。
実生活のほとんどの食品画像はラベルなしで取得され、データアノテーションには多くの時間と人的労力が必要です。
本稿では,食品画像における自己指導型学習手法の実装と分析に焦点をあてる。
- 参考スコア(独自算出の注目度): 6.602838826255494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food image analysis is the groundwork for image-based dietary assessment,
which is the process of monitoring what kinds of food and how much energy is
consumed using captured food or eating scene images. Existing deep
learning-based methods learn the visual representation for downstream tasks
based on human annotation of each food image. However, most food images in real
life are obtained without labels, and data annotation requires plenty of time
and human effort, which is not feasible for real-world applications. To make
use of the vast amount of unlabeled images, many existing works focus on
unsupervised or self-supervised learning of visual representations directly
from unlabeled data. However, none of these existing works focus on food
images, which is more challenging than general objects due to its high
inter-class similarity and intra-class variance.
In this paper, we focus on the implementation and analysis of existing
representative self-supervised learning methods on food images. Specifically,
we first compare the performance of six selected self-supervised learning
models on the Food-101 dataset. Then we analyze the pros and cons of each
selected model when training on food data to identify the key factors that can
help improve the performance. Finally, we propose several ideas for future work
on self-supervised visual representation learning for food images.
- Abstract(参考訳): 食品画像分析は、画像ベースの食事アセスメントの土台であり、どのような種類の食品とどれだけのエネルギーが消費されるかを監視するプロセスである。
既存の深層学習手法は、食品画像の人間のアノテーションに基づいて下流タスクの視覚表現を学習する。
しかし、実生活のほとんどの食品画像はラベルなしで取得され、データアノテーションには多くの時間と人的労力が必要であり、現実の用途では実現できない。
膨大な量のラベルなし画像を使用するため、既存の作品の多くはラベルなしデータから直接視覚表現の教師なしまたは自己教師なし学習に焦点を当てている。
しかし、これらの既存の作品はいずれも食品イメージに焦点を当てていないため、クラス間の類似度やクラス内分散度が高いため、一般的なオブジェクトよりも難しい。
本稿では,食品画像における既存の代表的自己教師あり学習手法の実装と分析に着目する。
具体的には,Food-101データセット上で選択した6つの自己教師型学習モデルの性能を比較した。
次に,食品データを用いた学習において,各モデルの長所と短所を分析し,性能向上に寄与する要因を同定する。
最後に,食品画像の自己教師型視覚表現学習における今後の課題について提案する。
関連論文リスト
- Towards the Creation of a Nutrition and Food Group Based Image Database [58.429385707376554]
栄養・食品群に基づく画像データベースを構築するための枠組みを提案する。
米国農務省食品栄養データベース(FNDDS)における食品群に基づく食品コードリンクプロトコルを設計する。
提案手法は16,114個の食品データセットを含む栄養・食品群に基づく画像データベースを構築するために用いられる。
論文 参考訳(メタデータ) (2022-06-05T02:41:44Z) - Online Continual Learning For Visual Food Classification [7.704949298975352]
既存の方法はトレーニングのために静的なデータセットを必要としており、シーケンシャルに利用可能な新しい食品画像から学ぶことができない。
本稿では,各学習食品に含まれる最も代表的なデータを格納するための,クラスタリングに基づく模範選択アルゴリズムを提案する。
その結果,既存のオンライン連続学習手法と比較して,大幅な改善が見られた。
論文 参考訳(メタデータ) (2021-08-15T17:48:03Z) - Towards Building a Food Knowledge Graph for Internet of Food [66.57235827087092]
食品分類から食品分類、食品知識グラフまで、食品知識組織の進化を概観する。
食品知識グラフは、食品検索と質問回答(QA)、パーソナライズされた食事レコメンデーション、食品分析、可視化において重要な役割を果たす。
食品知識グラフの今後の方向性は、マルチモーダル食品知識グラフや食品インテリジェンスなど、いくつかの分野をカバーする。
論文 参考訳(メタデータ) (2021-07-13T06:26:53Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Saliency-Aware Class-Agnostic Food Image Segmentation [10.664526852464812]
クラス別食品画像分割法を提案する。
画像の前後の情報を利用すれば、目立たないオブジェクトを見つけることで、食べ物のイメージをセグメンテーションすることができる。
本手法は,食餌研究から収集した食品画像を用いて検証する。
論文 参考訳(メタデータ) (2021-02-13T08:05:19Z) - MyFood: A Food Segmentation and Classification System to Aid Nutritional
Monitoring [1.5469452301122173]
食料モニタリングの欠如は、人口の体重増加に大きく寄与している。
食品画像を認識するためにコンピュータビジョンでいくつかのソリューションが提案されているが、栄養モニタリングに特化しているものはほとんどない。
本研究は, ユーザの食事と栄養摂取の自動モニタリングを支援するために, 画像に提示された食品を分類・分別するインテリジェントシステムの開発について述べる。
論文 参考訳(メタデータ) (2020-12-05T17:40:05Z) - Picture-to-Amount (PITA): Predicting Relative Ingredient Amounts from
Food Images [24.26111169033236]
食品画像から各成分の相対的な量を予測するという,新しい課題と課題について考察する。
本稿では,この問題を解決するために,Picture-to-AmountディープラーニングアーキテクチャであるPITAを提案する。
インターネットから収集されたレシピのデータセットの実験は、モデルが有望な結果を生成することを示す。
論文 参考訳(メタデータ) (2020-10-17T06:43:18Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Multi-Task Image-Based Dietary Assessment for Food Recognition and
Portion Size Estimation [6.603050343996914]
本稿では,食品分類と食品部分サイズ推定の両立が可能なエンドツーエンドマルチタスクフレームワークを提案する。
本結果は,分類精度と部分推定の平均絶対誤差の両方において,ベースライン法より優れる。
論文 参考訳(メタデータ) (2020-04-27T21:35:07Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。