論文の概要: Weakly-Supervised Semantic Segmentation with Image-Level Labels: from Traditional Models to Foundation Models
- arxiv url: http://arxiv.org/abs/2310.13026v2
- Date: Sun, 01 Dec 2024 14:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:23:08.634385
- Title: Weakly-Supervised Semantic Segmentation with Image-Level Labels: from Traditional Models to Foundation Models
- Title(参考訳): 画像レベルラベルを用いた弱教師付きセマンティックセマンティックセグメンテーション:従来のモデルから基礎モデルへ
- Authors: Zhaozheng Chen, Qianru Sun,
- Abstract要約: 弱教師付きセマンティックセマンティックセグメンテーション(WSSS)はピクセルレベルのラベルを避ける効果的なソリューションである。
私たちは、WSSSの最も難しい形態であるイメージレベルのラベルによるWSSSに焦点を当てています。
本稿では,WSSS の文脈において,Segment Anything Model (SAM) などの視覚基盤モデルの適用性について検討する。
- 参考スコア(独自算出の注目度): 28.518514106150413
- License:
- Abstract: The rapid development of deep learning has driven significant progress in image semantic segmentation - a fundamental task in computer vision. Semantic segmentation algorithms often depend on the availability of pixel-level labels (i.e., masks of objects), which are expensive, time-consuming, and labor-intensive. Weakly-supervised semantic segmentation (WSSS) is an effective solution to avoid such labeling. It utilizes only partial or incomplete annotations and provides a cost-effective alternative to fully-supervised semantic segmentation. In this journal, our focus is on the WSSS with image-level labels, which is the most challenging form of WSSS. Our work has two parts. First, we conduct a comprehensive survey on traditional methods, primarily focusing on those presented at premier research conferences. We categorize them into four groups based on where their methods operate: pixel-wise, image-wise, cross-image, and external data. Second, we investigate the applicability of visual foundation models, such as the Segment Anything Model (SAM), in the context of WSSS. We scrutinize SAM in two intriguing scenarios: text prompting and zero-shot learning. We provide insights into the potential and challenges of deploying visual foundational models for WSSS, facilitating future developments in this exciting research area.
- Abstract(参考訳): ディープラーニングの急速な発展は、コンピュータビジョンにおける基本的なタスクであるイメージセマンティックセグメンテーションの大幅な進歩をもたらした。
セマンティックセグメンテーションアルゴリズムは、しばしば、高価な、時間を要する、労働集約的なピクセルレベルのラベル(オブジェクトのマスク)の可用性に依存する。
弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、そのようなラベル付けを避ける効果的なソリューションである。
部分的あるいは不完全なアノテーションのみを使用し、完全に教師付きセマンティックセグメンテーションに代わる費用対効果を提供する。
このジャーナルでは、画像レベルのラベルを持つWSSSに焦点を当てています。
私たちの仕事には2つの部分がある。
まず,第1回研究会議で紹介された手法を中心に,従来の手法を総合的に調査する。
それらの手法を,ピクセルワイド,画像ワイド,クロスイメージ,外部データという4つのグループに分類する。
第2に、WSSSの文脈において、SAM(Segment Anything Model)のような視覚基盤モデルの適用性について検討する。
我々はSAMを、テキストプロンプトとゼロショット学習という2つの興味深いシナリオで精査する。
我々は、このエキサイティングな研究領域における将来の発展を促進するために、WSSSの視覚的基盤モデルをデプロイする可能性と課題についての洞察を提供する。
関連論文リスト
- Image Segmentation in Foundation Model Era: A Survey [99.19456390358211]
イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。
本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。
現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
論文 参考訳(メタデータ) (2024-08-23T10:07:59Z) - Semi-Supervised Semantic Segmentation Based on Pseudo-Labels: A Survey [49.47197748663787]
本総説は, 半教師付きセマンティックセグメンテーション分野における擬似ラベル手法に関する最新の研究成果について, 包括的かつ組織的に概観することを目的としている。
さらに,医用およびリモートセンシング画像のセグメンテーションにおける擬似ラベル技術の適用について検討する。
論文 参考訳(メタデータ) (2024-03-04T10:18:38Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Semantic Image Segmentation: Two Decades of Research [22.533249554532322]
本書はセマンティックイメージセグメンテーション(SiS)分野における20年間の研究成果をまとめたものである。
本稿では,近年のトランスフォーマーの利用動向を含む,最近のディープラーニング手法の概要を紹介する。
我々は、マルチドメイン学習、ドメイン一般化、ドメインインクリメンタル学習、テスト時間適応、ソースフリードメイン適応といった新しいトレンドを明らかにした。
論文 参考訳(メタデータ) (2023-02-13T14:11:05Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。