論文の概要: Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions
- arxiv url: http://arxiv.org/abs/2306.09203v1
- Date: Thu, 15 Jun 2023 15:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 14:04:31.846144
- Title: Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions
- Title(参考訳): 変圧器と畳み込みを用いた食品画像分割の知識伝達
- Authors: Grant Sinha, Krish Parmar, Hilda Azimi, Amy Tai, Yuhao Chen, Alexander
Wong, Pengcheng Xi
- Abstract要約: 食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
- 参考スコア(独自算出の注目度): 65.50975507723827
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Food image segmentation is an important task that has ubiquitous
applications, such as estimating the nutritional value of a plate of food.
Although machine learning models have been used for segmentation in this
domain, food images pose several challenges. One challenge is that food items
can overlap and mix, making them difficult to distinguish. Another challenge is
the degree of inter-class similarity and intra-class variability, which is
caused by the varying preparation methods and dishes a food item may be served
in. Additionally, class imbalance is an inevitable issue in food datasets. To
address these issues, two models are trained and compared, one based on
convolutional neural networks and the other on Bidirectional Encoder
representation for Image Transformers (BEiT). The models are trained and
valuated using the FoodSeg103 dataset, which is identified as a robust
benchmark for food image segmentation. The BEiT model outperforms the previous
state-of-the-art model by achieving a mean intersection over union of 49.4 on
FoodSeg103. This study provides insights into transfering knowledge using
convolution and Transformer-based approaches in the food image domain.
- Abstract(参考訳): 食品画像のセグメンテーションは、食品のプレートの栄養価を推定するなど、ユビキタスに応用される重要なタスクである。
この領域でのセグメンテーションには機械学習モデルが使用されているが、食品画像にはいくつかの課題がある。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
もう1つの課題はクラス間の類似性とクラス内変異の程度であり、これは食品が提供できる様々な調理方法と料理によって引き起こされる。
さらに、食品データセットにおけるクラス不均衡は避けられない問題である。
これらの問題に対処するために、2つのモデルをトレーニングし比較する。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向エンコーダ表現である。
モデルは、フードイメージセグメンテーションの堅牢なベンチマークとして認識されているFoodSeg103データセットを使用して、トレーニングされ、評価される。
beitモデルは、fooseg103の結合49.4の平均交点を達成することにより、以前の最先端モデルを上回る。
本研究は,食品画像領域における畳み込みとトランスフォーマーを用いた知識伝達に関する知見を提供する。
関連論文リスト
- OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation [43.65207396061584]
OVFoodSegは、ビジュアルコンテキストによるテキスト埋め込みを強化するフレームワークである。
OVFoodSegのトレーニングプロセスは、FoodLearnerの事前トレーニングと、セグメンテーションのためのその後の学習フェーズの2つの段階に分けられる。
以前のモデルの欠陥に対処することで、OVFoodSegは大幅な改善を示し、FoodSeg103データセット上での平均的インターセクション(mIoU)を4.9%増加させた。
論文 参考訳(メタデータ) (2024-04-01T18:26:29Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - Diffusion Model with Clustering-based Conditioning for Food Image
Generation [22.154182296023404]
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられている。
潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。
本稿では,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークであるClusDiffを提案する。
論文 参考訳(メタデータ) (2023-09-01T01:40:39Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Single-Stage Heavy-Tailed Food Classification [7.800379384628357]
そこで本研究では,新しい一段階のヘビーテール食品分類フレームワークを提案する。
本手法は,フード101-LTとVFN-LTの2つの重み付き食品ベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2023-07-01T00:45:35Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。