論文の概要: Towards Granularity-adjusted Pixel-level Semantic Annotation
- arxiv url: http://arxiv.org/abs/2312.02420v1
- Date: Tue, 5 Dec 2023 01:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:16:48.349064
- Title: Towards Granularity-adjusted Pixel-level Semantic Annotation
- Title(参考訳): 粒度調整型画素レベルの意味アノテーションに向けて
- Authors: Rohit Kundu, Sudipta Paul, Rohit Lal and Amit K. Roy-Chowdhury
- Abstract要約: GranSAMは、手作業による監督を必要とせずに、ラベルのないデータに対して、ユーザ定義の粒度レベルでセマンティックセグメンテーションを提供する。
安定拡散モデルやWebクローリング画像によって生成された合成画像から意味情報を蓄積する。
PASCAL VOC 2012とCOCO-80データセットの実験を行い、mIoUの+17.95%と+5.17%の増加を観測した。
- 参考スコア(独自算出の注目度): 26.91350707156658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in computer vision predominantly rely on learning-based
systems, leveraging annotations as the driving force to develop specialized
models. However, annotating pixel-level information, particularly in semantic
segmentation, presents a challenging and labor-intensive task, prompting the
need for autonomous processes. In this work, we propose GranSAM which
distinguishes itself by providing semantic segmentation at the user-defined
granularity level on unlabeled data without the need for any manual
supervision, offering a unique contribution in the realm of semantic mask
annotation method. Specifically, we propose an approach to enable the Segment
Anything Model (SAM) with semantic recognition capability to generate
pixel-level annotations for images without any manual supervision. For this, we
accumulate semantic information from synthetic images generated by the Stable
Diffusion model or web crawled images and employ this data to learn a mapping
function between SAM mask embeddings and object class labels. As a result, SAM,
enabled with granularity-adjusted mask recognition, can be used for pixel-level
semantic annotation purposes. We conducted experiments on the PASCAL VOC 2012
and COCO-80 datasets and observed a +17.95% and +5.17% increase in mIoU,
respectively, compared to existing state-of-the-art methods when evaluated
under our problem setting.
- Abstract(参考訳): 近年のコンピュータビジョンの進歩は、主に学習ベースのシステムに依存しており、アノテーションを特殊なモデルを開発する原動力として活用している。
しかしながら、ピクセルレベルの情報をアノテートすることは、特に意味セグメンテーションにおいて、困難で労働集約的なタスクであり、自律的なプロセスの必要性を生じさせる。
本研究では,非ラベルデータに対するユーザ定義の粒度レベルでの意味セグメンテーションを,手作業による監督を必要とせずに提供し,セマンティックマスクアノテーション法におけるユニークな貢献を提供するグランサムを提案する。
具体的には,Segment Anything Model(SAM)を意味認識機能付きで実現し,手動による監督なしに画像のピクセルレベルのアノテーションを生成するアプローチを提案する。
そこで我々は,安定拡散モデルやWebクローリング画像によって生成された合成画像から意味情報を蓄積し,このデータを用いてSAMマスク埋め込みとオブジェクトクラスラベルのマッピング関数を学習する。
結果として、粒度調整マスク認識で使用可能なsamは、ピクセルレベルの意味的アノテーション目的に使用できる。
PASCAL VOC 2012 と COCO-80 のデータセットを用いて実験を行い,mIoU の約 17.95% と +5.17% の増加を観測した。
関連論文リスト
- PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image
Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial
Images [62.36946925639107]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - MOCA: Self-supervised Representation Learning by Predicting Masked
Online Codebook Assignments [48.67345147676275]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
相乗的, 計算効率の両パラダイムを効果的に活用する方法を示す。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Towards Single Stage Weakly Supervised Semantic Segmentation [2.28438857884398]
弱教師付きセマンティックセグメンテーションへのシングルステージアプローチを提案する。
ポイントアノテーションを使用して、オンザフライで信頼性の高い擬似マスクを生成します。
我々は、最近の実世界のデータセットにおいて、他のSOTA WSSS手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-06-18T18:34:50Z) - Pseudo Pixel-level Labeling for Images with Evolving Content [5.573543601558405]
画像の手動アノテーションの労力を削減するために,擬似ピクセルレベルのラベル生成手法を提案する。
VGGとResNetのバックボーンを用いた2つのセマンティックセグメンテーションモデルを、擬似ラベリング法と最先端手法を用いてラベル付けした画像上で学習する。
以上の結果から, トレーニングプロセスにおいて, 最先端手法を用いて生成したデータの代わりに擬似ラベルを用いることで, VGGおよびResNetに基づくセマンティックセマンティックセグメンテーションモデルの平均IoUと周波数重み付きIoUを3.36%, 2.58%, 10倍改善することがわかった。
論文 参考訳(メタデータ) (2021-05-20T18:14:19Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。