Fugu-MT 論文翻訳(概要): Towards Granularity-adjusted Pixel-level Semantic Annotation

論文の概要: Towards Granularity-adjusted Pixel-level Semantic Annotation

arxiv url: http://arxiv.org/abs/2312.02420v1
Date: Tue, 5 Dec 2023 01:37:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 17:16:48.349064
Title: Towards Granularity-adjusted Pixel-level Semantic Annotation
Title（参考訳）: 粒度調整型画素レベルの意味アノテーションに向けて
Authors: Rohit Kundu, Sudipta Paul, Rohit Lal and Amit K. Roy-Chowdhury
Abstract要約: GranSAMは、手作業による監督を必要とせずに、ラベルのないデータに対して、ユーザ定義の粒度レベルでセマンティックセグメンテーションを提供する。安定拡散モデルやWebクローリング画像によって生成された合成画像から意味情報を蓄積する。 PASCAL VOC 2012とCOCO-80データセットの実験を行い、mIoUの+17.95%と+5.17%の増加を観測した。
参考スコア（独自算出の注目度）: 26.91350707156658
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in computer vision predominantly rely on learning-based systems, leveraging annotations as the driving force to develop specialized models. However, annotating pixel-level information, particularly in semantic segmentation, presents a challenging and labor-intensive task, prompting the need for autonomous processes. In this work, we propose GranSAM which distinguishes itself by providing semantic segmentation at the user-defined granularity level on unlabeled data without the need for any manual supervision, offering a unique contribution in the realm of semantic mask annotation method. Specifically, we propose an approach to enable the Segment Anything Model (SAM) with semantic recognition capability to generate pixel-level annotations for images without any manual supervision. For this, we accumulate semantic information from synthetic images generated by the Stable Diffusion model or web crawled images and employ this data to learn a mapping function between SAM mask embeddings and object class labels. As a result, SAM, enabled with granularity-adjusted mask recognition, can be used for pixel-level semantic annotation purposes. We conducted experiments on the PASCAL VOC 2012 and COCO-80 datasets and observed a +17.95% and +5.17% increase in mIoU, respectively, compared to existing state-of-the-art methods when evaluated under our problem setting.
Abstract（参考訳）: 近年のコンピュータビジョンの進歩は、主に学習ベースのシステムに依存しており、アノテーションを特殊なモデルを開発する原動力として活用している。しかしながら、ピクセルレベルの情報をアノテートすることは、特に意味セグメンテーションにおいて、困難で労働集約的なタスクであり、自律的なプロセスの必要性を生じさせる。本研究では,非ラベルデータに対するユーザ定義の粒度レベルでの意味セグメンテーションを,手作業による監督を必要とせずに提供し,セマンティックマスクアノテーション法におけるユニークな貢献を提供するグランサムを提案する。具体的には,Segment Anything Model(SAM)を意味認識機能付きで実現し,手動による監督なしに画像のピクセルレベルのアノテーションを生成するアプローチを提案する。そこで我々は,安定拡散モデルやWebクローリング画像によって生成された合成画像から意味情報を蓄積し,このデータを用いてSAMマスク埋め込みとオブジェクトクラスラベルのマッピング関数を学習する。結果として、粒度調整マスク認識で使用可能なsamは、ピクセルレベルの意味的アノテーション目的に使用できる。 PASCAL VOC 2012 と COCO-80 のデータセットを用いて実験を行い,mIoU の約 17.95% と +5.17% の増加を観測した。

関連論文リスト

SAM-Aware Graph Prompt Reasoning Network for Cross-Domain Few-Shot Segmentation [25.00605325290872]
本稿では,CD-FSS特徴表現学習のガイドとして,SAM対応グラフプロンプト推論ネットワーク(GPRN)を提案する。 GPRNはSAMによって生成されたマスクを高レベルの意味情報に富んだ視覚的なプロンプトに変換する。提案手法は, 新たな最先端結果を確立するものである。
論文参考訳（メタデータ） (2024-12-31T06:38:49Z)
Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。 PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文参考訳（メタデータ） (2024-09-30T01:13:03Z)
Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。 UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。 UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-23T19:05:50Z)
PointSAM: Pointly-Supervised Segment Anything Model for Remote Sensing Images [16.662173255725463]
本稿では,PointSAM という新しいセグメンテーションモデルを提案する。我々は, WHU, HRSID, NWPU VHR-10を含むRSIデータセットの実験を行った。その結果,本手法はSAM,SAM2,その他の比較法で直接試験よりも優れていた。
論文参考訳（メタデータ） (2024-09-20T11:02:18Z)
SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文参考訳（メタデータ） (2024-07-23T17:47:25Z)
Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
論文参考訳（メタデータ） (2024-04-25T17:58:09Z)
MaskSAM: Towards Auto-prompt SAM with Mask Classification for Volumetric Medical Image Segmentation [17.25946659884426]
医用画像セグメンテーションのためのマスク分類プロンプトフリーフレームワークであるMaskSAMを提案する。本手法は,AMOS2022,90.52%のDice上での最先端性能を実現し,nnUNetに比べて2.7%向上した。
論文参考訳（メタデータ） (2024-03-21T03:28:24Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。 SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文参考訳（メタデータ） (2023-12-06T17:19:00Z)
Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。 SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文参考訳（メタデータ） (2023-11-22T07:07:55Z)
CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。 CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文参考訳（メタデータ） (2023-09-28T18:04:43Z)
Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文参考訳（メタデータ） (2023-07-10T17:59:40Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly Supervised Semantic Segmentation [30.812323329239614]
弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、画像レベルのアノテーションのみを使用することで、精細なピクセルレベルのアノテーションの必要性を回避することを目的としている。既存のほとんどのメソッドは、ピクセルレベルの擬似ラベルを導出するためにクラスアクティベーションマップ(CAM)に依存している。オブジェクト,部品,サブパートのきめ細かいインスタンスマスクを生成できるクラスに依存しない基礎モデルであるSegment Anything Model (SAM) を利用した,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2023-05-09T23:24:09Z)
Multi-Granularity Denoising and Bidirectional Alignment for Weakly Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。 MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文参考訳（メタデータ） (2023-05-09T03:33:43Z)
Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。 PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。 PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文参考訳（メタデータ） (2023-05-04T17:59:36Z)
Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文参考訳（メタデータ） (2022-06-13T17:59:43Z)
A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文参考訳（メタデータ） (2021-11-02T08:28:11Z)
Towards Single Stage Weakly Supervised Semantic Segmentation [2.28438857884398]
弱教師付きセマンティックセグメンテーションへのシングルステージアプローチを提案する。ポイントアノテーションを使用して、オンザフライで信頼性の高い擬似マスクを生成します。我々は、最近の実世界のデータセットにおいて、他のSOTA WSSS手法よりも大幅に優れています。
論文参考訳（メタデータ） (2021-06-18T18:34:50Z)
Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文参考訳（メタデータ） (2020-04-09T14:57:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。