論文の概要: OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation
- arxiv url: http://arxiv.org/abs/2404.01409v1
- Date: Mon, 1 Apr 2024 18:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 20:47:06.184240
- Title: OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation
- Title(参考訳): OVFoodSeg: 画像インフォームドテクスチャ表現によるオープン語彙食品画像のセグメンテーション
- Authors: Xiongwei Wu, Sicheng Yu, Ee-Peng Lim, Chong-Wah Ngo,
- Abstract要約: OVFoodSegは、ビジュアルコンテキストによるテキスト埋め込みを強化するフレームワークである。
OVFoodSegのトレーニングプロセスは、FoodLearnerの事前トレーニングと、セグメンテーションのためのその後の学習フェーズの2つの段階に分けられる。
以前のモデルの欠陥に対処することで、OVFoodSegは大幅な改善を示し、FoodSeg103データセット上での平均的インターセクション(mIoU)を4.9%増加させた。
- 参考スコア(独自算出の注目度): 43.65207396061584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of food computing, segmenting ingredients from images poses substantial challenges due to the large intra-class variance among the same ingredients, the emergence of new ingredients, and the high annotation costs associated with large food segmentation datasets. Existing approaches primarily utilize a closed-vocabulary and static text embeddings setting. These methods often fall short in effectively handling the ingredients, particularly new and diverse ones. In response to these limitations, we introduce OVFoodSeg, a framework that adopts an open-vocabulary setting and enhances text embeddings with visual context. By integrating vision-language models (VLMs), our approach enriches text embedding with image-specific information through two innovative modules, eg, an image-to-text learner FoodLearner and an Image-Informed Text Encoder. The training process of OVFoodSeg is divided into two stages: the pre-training of FoodLearner and the subsequent learning phase for segmentation. The pre-training phase equips FoodLearner with the capability to align visual information with corresponding textual representations that are specifically related to food, while the second phase adapts both the FoodLearner and the Image-Informed Text Encoder for the segmentation task. By addressing the deficiencies of previous models, OVFoodSeg demonstrates a significant improvement, achieving an 4.9\% increase in mean Intersection over Union (mIoU) on the FoodSeg103 dataset, setting a new milestone for food image segmentation.
- Abstract(参考訳): 食品処理の分野では、画像からの成分の分別は、同じ成分のクラス内における大きなばらつき、新しい成分の出現、大規模な食品分別データセットに関連する高付加価値コストなどにより、大きな課題を生んでいる。
既存のアプローチは、主にクローズド語彙と静的テキスト埋め込みの設定を利用する。
これらの方法は、材料、特に新しくて多様なものを効果的に扱うのに不足することが多い。
OVFoodSegはオープンな語彙設定を採用し、視覚的コンテキストでテキストの埋め込みを強化するフレームワークである。
視覚言語モデル (VLM) を統合することにより,2つの革新的なモジュール,例えば画像からテキストへの学習者FoodLearnerと画像インフォームドテキストエンコーダを通じて,画像固有情報へのテキスト埋め込みを強化する。
OVFoodSegのトレーニングプロセスは、FoodLearnerの事前トレーニングと、セグメンテーションのためのその後の学習フェーズの2つの段階に分けられる。
事前学習フェーズは、FoodLearnerに、視覚情報を、特に食品に関連する対応するテキスト表現と整合させる機能を備え、第2フェーズは、セグメンテーションタスクのためにFoodLearnerとImage-Informed Text Encoderの両方を適応させる。
以前のモデルの欠陥に対処することによって、OVFoodSegは大幅な改善を示し、FoodSeg103データセット上での平均IoU(Intersection over Union)の平均4.9\%の増加を実現し、食品画像セグメンテーションの新たなマイルストーンを樹立した。
関連論文リスト
- Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models [48.821150379374714]
大規模で高品質な食品画像合成データセットFC22kを導入する。
本研究では,前景や背景情報を処理・統合するためのFusion Moduleを組み込んだ新しい食品画像合成手法であるFoodfusionを提案する。
論文 参考訳(メタデータ) (2024-08-26T09:32:16Z) - FMiFood: Multi-modal Contrastive Learning for Food Image Classification [8.019925729254178]
我々はFMiFoodと呼ばれる新しいマルチモーダル・コントラスト学習フレームワークを導入し、より差別的な特徴を学習する。
具体的には,テキストと画像の埋め込みの類似性マッチングを改善するフレキシブルマッチング手法を提案する。
本手法は,既存の手法と比較してUPMC-101とVFNの両方の性能向上を示す。
論文 参考訳(メタデータ) (2024-08-07T17:29:19Z) - FoodMem: Near Real-time and Precise Food Video Segmentation [4.282795945742752]
現在の制限は、不正確な栄養分析、非効率な作物管理、最適な食品加工に繋がる。
本研究では,高品質でほぼリアルタイムなセグメンテーションとビデオ中の食品の追跡のための堅牢なフレームワークの開発を紹介する。
私たちは、360度シーンのビデオシーケンスから食品を分割する新しいフレームワーク、FoodMemを紹介します。
論文 参考訳(メタデータ) (2024-07-16T19:15:07Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。