論文の概要: Towards Granularity-adjusted Pixel-level Semantic Annotation
- arxiv url: http://arxiv.org/abs/2312.02420v1
- Date: Tue, 5 Dec 2023 01:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:16:48.349064
- Title: Towards Granularity-adjusted Pixel-level Semantic Annotation
- Title(参考訳): 粒度調整型画素レベルの意味アノテーションに向けて
- Authors: Rohit Kundu, Sudipta Paul, Rohit Lal and Amit K. Roy-Chowdhury
- Abstract要約: GranSAMは、手作業による監督を必要とせずに、ラベルのないデータに対して、ユーザ定義の粒度レベルでセマンティックセグメンテーションを提供する。
安定拡散モデルやWebクローリング画像によって生成された合成画像から意味情報を蓄積する。
PASCAL VOC 2012とCOCO-80データセットの実験を行い、mIoUの+17.95%と+5.17%の増加を観測した。
- 参考スコア(独自算出の注目度): 26.91350707156658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in computer vision predominantly rely on learning-based
systems, leveraging annotations as the driving force to develop specialized
models. However, annotating pixel-level information, particularly in semantic
segmentation, presents a challenging and labor-intensive task, prompting the
need for autonomous processes. In this work, we propose GranSAM which
distinguishes itself by providing semantic segmentation at the user-defined
granularity level on unlabeled data without the need for any manual
supervision, offering a unique contribution in the realm of semantic mask
annotation method. Specifically, we propose an approach to enable the Segment
Anything Model (SAM) with semantic recognition capability to generate
pixel-level annotations for images without any manual supervision. For this, we
accumulate semantic information from synthetic images generated by the Stable
Diffusion model or web crawled images and employ this data to learn a mapping
function between SAM mask embeddings and object class labels. As a result, SAM,
enabled with granularity-adjusted mask recognition, can be used for pixel-level
semantic annotation purposes. We conducted experiments on the PASCAL VOC 2012
and COCO-80 datasets and observed a +17.95% and +5.17% increase in mIoU,
respectively, compared to existing state-of-the-art methods when evaluated
under our problem setting.
- Abstract(参考訳): 近年のコンピュータビジョンの進歩は、主に学習ベースのシステムに依存しており、アノテーションを特殊なモデルを開発する原動力として活用している。
しかしながら、ピクセルレベルの情報をアノテートすることは、特に意味セグメンテーションにおいて、困難で労働集約的なタスクであり、自律的なプロセスの必要性を生じさせる。
本研究では,非ラベルデータに対するユーザ定義の粒度レベルでの意味セグメンテーションを,手作業による監督を必要とせずに提供し,セマンティックマスクアノテーション法におけるユニークな貢献を提供するグランサムを提案する。
具体的には,Segment Anything Model(SAM)を意味認識機能付きで実現し,手動による監督なしに画像のピクセルレベルのアノテーションを生成するアプローチを提案する。
そこで我々は,安定拡散モデルやWebクローリング画像によって生成された合成画像から意味情報を蓄積し,このデータを用いてSAMマスク埋め込みとオブジェクトクラスラベルのマッピング関数を学習する。
結果として、粒度調整マスク認識で使用可能なsamは、ピクセルレベルの意味的アノテーション目的に使用できる。
PASCAL VOC 2012 と COCO-80 のデータセットを用いて実験を行い,mIoU の約 17.95% と +5.17% の増加を観測した。
関連論文リスト
- Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。
特徴表現に基づいてイメージを意味的に意味のあるマスクに分解するPriMaPs - principal Mask Proposalsを提案する。
これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
PriMaPs-EMは、DINOやDINOv2など、トレーニング済みのバックボーンモデルや、CityscapesやCOCOなど、データセット間の競争結果をもたらす。
論文 参考訳(メタデータ) (2024-04-25T17:58:09Z) - SOHES: Self-supervised Open-world Hierarchical Entity Segmentation [82.45303116125021]
この研究は、人間のアノテーションを必要としない新しいアプローチであるSOHES(Self-supervised Open World Hierarchical Entities)を提示する。
視覚的特徴クラスタリングにより高品質な擬似ラベルを生成し,教師同士の学習によって擬似ラベルの雑音を補正する。
学習データとして生画像を用いることにより,自己監督型オープンワールドセグメンテーションにおける前例のない性能を実現する。
論文 参考訳(メタデータ) (2024-04-18T17:59:46Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Towards Single Stage Weakly Supervised Semantic Segmentation [2.28438857884398]
弱教師付きセマンティックセグメンテーションへのシングルステージアプローチを提案する。
ポイントアノテーションを使用して、オンザフライで信頼性の高い擬似マスクを生成します。
我々は、最近の実世界のデータセットにおいて、他のSOTA WSSS手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-06-18T18:34:50Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。