論文の概要: FoodSAM: Any Food Segmentation
- arxiv url: http://arxiv.org/abs/2308.05938v1
- Date: Fri, 11 Aug 2023 04:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:04:50.862006
- Title: FoodSAM: Any Food Segmentation
- Title(参考訳): FoodSAM: あらゆる食品セグメンテーション
- Authors: Xing Lan, Jiayi Lyu, Hanyu Jiang, Kun Dong, Zehai Niu, Yi Zhang, Jian
Xue
- Abstract要約: 本稿では,SAM生成マスクにおけるクラス固有の情報の欠如に対処する新しいフレームワークであるFoodSAMを提案する。
FoodSAMは、粗いセマンティックマスクとSAM生成マスクを統合し、セマンティックセマンティクスの品質を高める。
FoodSAMは、食品画像の例、パノプティクス、即時セグメンテーションを達成するための最初の作業である。
- 参考スコア(独自算出の注目度): 10.467966270491228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the zero-shot capability of the Segment Anything
Model (SAM) for food image segmentation. To address the lack of class-specific
information in SAM-generated masks, we propose a novel framework, called
FoodSAM. This innovative approach integrates the coarse semantic mask with
SAM-generated masks to enhance semantic segmentation quality. Besides, we
recognize that the ingredients in food can be supposed as independent
individuals, which motivated us to perform instance segmentation on food
images. Furthermore, FoodSAM extends its zero-shot capability to encompass
panoptic segmentation by incorporating an object detector, which renders
FoodSAM to effectively capture non-food object information. Drawing inspiration
from the recent success of promptable segmentation, we also extend FoodSAM to
promptable segmentation, supporting various prompt variants. Consequently,
FoodSAM emerges as an all-encompassing solution capable of segmenting food
items at multiple levels of granularity. Remarkably, this pioneering framework
stands as the first-ever work to achieve instance, panoptic, and promptable
segmentation on food images. Extensive experiments demonstrate the feasibility
and impressing performance of FoodSAM, validating SAM's potential as a
prominent and influential tool within the domain of food image segmentation. We
release our code at https://github.com/jamesjg/FoodSAM.
- Abstract(参考訳): 本稿では,食品画像セグメンテーションのためのSegment Anything Model(SAM)のゼロショット機能について検討する。
SAM生成マスクにおけるクラス固有の情報の欠如に対処するため,FoodSAMと呼ばれる新しいフレームワークを提案する。
この革新的なアプローチは、セマンティックセグメンテーションの品質を高めるために、粗いセマンティックマスクとSAM生成マスクを統合する。
さらに,食品中の成分が独立した個人として考えられることも認識し,食品画像のインスタンスセグメンテーションを行う動機となった。
さらに、FoodSAMはゼロショット機能を拡張して、オブジェクト検出器を組み込むことで、非フードオブジェクト情報を効果的にキャプチャする。
また, プロンプト可能なセグメンテーションの成功からインスピレーションを得て, プロンプト可能なセグメンテーションへと拡張し, 様々なプロンプト変種をサポートする。
その結果、FoodSAMは、食品を多レベルの粒度で分断できる全アクセスソリューションとして出現する。
注目すべきは、この先駆的なフレームワークは、食品画像の例、パノプティクス、そして迅速なセグメンテーションを達成するための最初の作業である。
食品画像セグメンテーションの領域において、SAMの可能性は顕著で影響力のあるツールとして検証されている。
コードをhttps://github.com/jamesjg/FoodSAMでリリースします。
関連論文リスト
- A SAM based Tool for Semi-Automatic Food Annotation [0.0]
SAM(Segment Anything Model)を利用した半自動食品画像アノテーションツールのデモを紹介する。
このツールは、ユーザインタラクションを通じて、即時ベースの食品セグメンテーションを可能にし、ユーザエンゲージメントを促進し、食事イメージ内の食品のさらなる分類を可能にする。
また、食品画像のセグメンテーションに特化したViT-Bバックボーンを備えた、MealSAMと呼ばれるSAMのマスクデコーダの微調整版もリリースしました。
論文 参考訳(メタデータ) (2024-10-11T11:50:10Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - VRP-SAM: SAM with Visual Reference Prompt [73.05676082695459]
そこで我々は,Segment Anything Model (SAM) を利用した新しいVisual Reference Prompt (VRP) エンコーダを提案する。
本質的には、VRP-SAMは注釈付き参照画像を使用して特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行することができる。
論文 参考訳(メタデータ) (2024-02-27T17:58:09Z) - PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation [19.65118388712439]
本稿では,新しいプロンプト駆動型アダプタであるPrompt Adapter Segment Anything Model(PA-SAM)を紹介する。
PA-SAMはプロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化する。
実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。
論文 参考訳(メタデータ) (2024-01-23T19:20:22Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.42565443181017]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Input Augmentation with SAM: Boosting Medical Image Segmentation with
Segmentation Foundation Model [36.015065439244495]
Segment Anything Model (SAM) はコンピュータビジョンタスクのための汎用セグメンテーションのための大規模モデルである。
SAMは100万枚の画像と10億枚以上のマスクを使って訓練され、自然の風景画像に広範囲のオブジェクトのセグメンテーション結果を生成することができる。
本報告では,SAMは医用画像データに高品質なセグメンテーションを提供していないが,その生成マスク,特徴,安定性スコアは,より優れた医用画像セグメンテーションモデルの構築と訓練に有用であることを示す。
論文 参考訳(メタデータ) (2023-04-22T07:11:53Z) - SAM Fails to Segment Anything? -- SAM-Adapter: Adapting SAM in
Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and
More [13.047310918166762]
ドメイン固有の情報や視覚的プロンプトを,単純で効果的なアダプタを用いてセグメント化ネットワークに組み込んだtextbfSAM-Adapterを提案する。
タスク固有のネットワークモデルよりも優れていて、テストしたタスクで最先端のパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-18T17:38:54Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。