論文の概要: Weakly Supervised Food Image Segmentation using Vision Transformers and Segment Anything Model
- arxiv url: http://arxiv.org/abs/2509.19028v1
- Date: Tue, 23 Sep 2025 14:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.876938
- Title: Weakly Supervised Food Image Segmentation using Vision Transformers and Segment Anything Model
- Title(参考訳): 視覚変換器とセグメンテーションモデルを用いた食品画像分割の微調整
- Authors: Ioannis Sarafis, Alexandros Papadopoulos, Anastasios Delopoulos,
- Abstract要約: 食品画像に対する弱教師付きセマンティックセマンティックセマンティクス手法を提案する。
我々は視覚変換器(ViT)の注意機構とともにSAM(Seegment Anything Model)を用いる。
提案手法は,食品画像のアノテーションタスクを加速するツールとして,あるいは食品・栄養追跡アプリケーションにおいて統合されたコンポーネントとして想定される。
- 参考スコア(独自算出の注目度): 45.641643140398735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a weakly supervised semantic segmentation approach for food images which takes advantage of the zero-shot capabilities and promptability of the Segment Anything Model (SAM) along with the attention mechanisms of Vision Transformers (ViTs). Specifically, we use class activation maps (CAMs) from ViTs to generate prompts for SAM, resulting in masks suitable for food image segmentation. The ViT model, a Swin Transformer, is trained exclusively using image-level annotations, eliminating the need for pixel-level annotations during training. Additionally, to enhance the quality of the SAM-generated masks, we examine the use of image preprocessing techniques in combination with single-mask and multi-mask SAM generation strategies. The methodology is evaluated on the FoodSeg103 dataset, generating an average of 2.4 masks per image (excluding background), and achieving an mIoU of 0.54 for the multi-mask scenario. We envision the proposed approach as a tool to accelerate food image annotation tasks or as an integrated component in food and nutrition tracking applications.
- Abstract(参考訳): 本稿では、視覚変換器(ViT)の注意機構とともに、SAM(Seegment Anything Model)のゼロショット機能とアクセラビリティを活用する、食品画像の弱教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
具体的には、クラスアクティベーションマップ(CAM)を用いてSAMのプロンプトを生成し、食品画像のセグメンテーションに適したマスクを生成する。
Swin TransformerであるViTモデルは、イメージレベルのアノテーションのみを使用してトレーニングされており、トレーニング中にピクセルレベルのアノテーションを不要にしている。
さらに,SAM生成マスクの品質向上を目的として,単一マスクとマルチマスクSAM生成戦略を組み合わせた画像前処理技術について検討した。
この手法はFoodSeg103データセットで評価され、画像毎の平均2.4マスク(背景を除く)を生成し、マルチマスクシナリオで0.54のmIoUを達成する。
提案手法は,食品画像のアノテーションタスクを加速するツールとして,あるいは食品・栄養追跡アプリケーションにおいて統合されたコンポーネントとして想定される。
関連論文リスト
- LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文 参考訳(メタデータ) (2025-05-26T02:22:41Z) - PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation [19.65118388712439]
本稿では,新しいプロンプト駆動型アダプタであるPrompt Adapter Segment Anything Model(PA-SAM)を紹介する。
PA-SAMはプロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化する。
実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。
論文 参考訳(メタデータ) (2024-01-23T19:20:22Z) - FoodSAM: Any Food Segmentation [10.467966270491228]
本稿では,SAM生成マスクにおけるクラス固有の情報の欠如に対処する新しいフレームワークであるFoodSAMを提案する。
FoodSAMは、粗いセマンティックマスクとSAM生成マスクを統合し、セマンティックセマンティクスの品質を高める。
FoodSAMは、食品画像の例、パノプティクス、即時セグメンテーションを達成するための最初の作業である。
論文 参考訳(メタデータ) (2023-08-11T04:42:10Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。