論文の概要: Improving Food Image Recognition with Noisy Vision Transformer
- arxiv url: http://arxiv.org/abs/2503.18997v1
- Date: Mon, 24 Mar 2025 03:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:20.345351
- Title: Improving Food Image Recognition with Noisy Vision Transformer
- Title(参考訳): ノイズビジョン変換器による食品画像認識の改善
- Authors: Tonmoy Ghosh, Edward Sazonov,
- Abstract要約: NoisyViTは、学習プロセスにノイズを導入し、食品分類性能を改善する。
NoisyViT は 95%、99.5%、96.6% で、それぞれ Food2K、Food-101、CNFOOD-241 である。
本研究は, 食事評価, 栄養モニタリング, 医療応用におけるNoisyViTの可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 0.9944647907864258
- License:
- Abstract: Food image recognition is a challenging task in computer vision due to the high variability and complexity of food images. In this study, we investigate the potential of Noisy Vision Transformers (NoisyViT) for improving food classification performance. By introducing noise into the learning process, NoisyViT reduces task complexity and adjusts the entropy of the system, leading to enhanced model accuracy. We fine-tune NoisyViT on three benchmark datasets: Food2K (2,000 categories, ~1M images), Food-101 (101 categories, ~100K images), and CNFOOD-241 (241 categories, ~190K images). The performance of NoisyViT is evaluated against state-of-the-art food recognition models. Our results demonstrate that NoisyViT achieves Top-1 accuracies of 95%, 99.5%, and 96.6% on Food2K, Food-101, and CNFOOD-241, respectively, significantly outperforming existing approaches. This study underscores the potential of NoisyViT for dietary assessment, nutritional monitoring, and healthcare applications, paving the way for future advancements in vision-based food computing. Code for reproducing NoisyViT for food recognition is available at NoisyViT_Food.
- Abstract(参考訳): 食品画像認識は、食品画像の多様性と複雑さが高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,Nuisy Vision Transformers (NoisyViT) の食品分類性能向上効果について検討した。
学習プロセスにノイズを導入することで、NoisyViTはタスクの複雑さを減らし、システムのエントロピーを調整し、モデルの精度を向上する。
私たちは3つのベンチマークデータセット、Food2K (2,000のカテゴリ, ~1Mのイメージ), Food-101 (101のカテゴリ, ~100Kのイメージ), CNFOOD-241 (241のカテゴリ, ~190Kのイメージ)でNoisyViTを微調整します。
The performance of NoisyViT are evaluation against State-of-the-art food recognition model。
以上の結果から,NoisyViTは食品2K,Food-101,CNFOOD-241において,95%,99.5%,96.6%のTop-1アキュラシーを達成し,既存のアプローチを著しく上回る結果となった。
本研究は, 食事評価, 栄養モニタリング, 医療応用におけるNoisyViTの可能性を明らかにする。
食品認識のためのNoisyViTの再生コードは、NoisyViT_Foodで利用可能である。
関連論文リスト
- MetaFood CVPR 2024 Challenge on Physically Informed 3D Food Reconstruction: Methods and Results [52.07174491056479]
私たちはMetaFood Workshopを主催し、物理的にインフォームドされた3Dフードレコンストラクションへの挑戦を行っている。
本課題は,2次元画像から,視認性チェッカーボードをサイズ基準として,食品の容積正確な3次元モデルを再構築することに焦点を当てる。
この課題で開発されたソリューションは、3D食品の復元において有望な成果を達成し、食事評価と栄養モニタリングのための部分推定の改善に有意な可能性を秘めている。
論文 参考訳(メタデータ) (2024-07-12T14:15:48Z) - How Much You Ate? Food Portion Estimation on Spoons [63.611551981684244]
現在の画像に基づく食品部分推定アルゴリズムは、ユーザが食事の画像を1、2回取ることを前提としている。
本稿では,静止型ユーザ向けカメラを用いて,機器上の食品の追跡を行う革新的なソリューションを提案する。
本システムは,スープやシチューなどの液状固形不均一混合物の栄養含量の推定に信頼性が高い。
論文 参考訳(メタデータ) (2024-05-12T00:16:02Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - Diffusion Model with Clustering-based Conditioning for Food Image
Generation [22.154182296023404]
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられている。
潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。
本稿では,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークであるClusDiffを提案する。
論文 参考訳(メタデータ) (2023-09-01T01:40:39Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Conditional Synthetic Food Image Generation [12.235703733345833]
GAN(Generative Adversarial Networks)はその強力な表現学習能力に基づいて画像合成のために広く研究されている。
本研究の目的は,食品画像生成のためのGAN法の性能向上と性能向上である。
論文 参考訳(メタデータ) (2023-03-16T00:23:20Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - MyFood: A Food Segmentation and Classification System to Aid Nutritional
Monitoring [1.5469452301122173]
食料モニタリングの欠如は、人口の体重増加に大きく寄与している。
食品画像を認識するためにコンピュータビジョンでいくつかのソリューションが提案されているが、栄養モニタリングに特化しているものはほとんどない。
本研究は, ユーザの食事と栄養摂取の自動モニタリングを支援するために, 画像に提示された食品を分類・分別するインテリジェントシステムの開発について述べる。
論文 参考訳(メタデータ) (2020-12-05T17:40:05Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。