論文の概要: Customizing Segmentation Foundation Model via Prompt Learning for Instance Segmentation
- arxiv url: http://arxiv.org/abs/2403.09199v1
- Date: Thu, 14 Mar 2024 09:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:16:56.385390
- Title: Customizing Segmentation Foundation Model via Prompt Learning for Instance Segmentation
- Title(参考訳): インスタンスセグメンテーションのためのプロンプト学習によるセグメンテーション基礎モデルのカスタマイズ
- Authors: Hyung-Il Kim, Kimin Yun, Jun-Seok Yun, Yuseok Bae,
- Abstract要約: Segment Anything Model (SAM)は、画像セグメンテーションタスクの一般化性と柔軟性の顕著な進歩で際立っている。
そこで本研究では,SAMに適応した即時学習によるインスタンスセグメンテーションをカスタマイズする手法を提案する。
提案手法は,ユーザ意図に合うように入力プロンプトを埋め込み空間に調整するプロンプト学習モジュール (PLM) を備える。
- 参考スコア(独自算出の注目度): 7.6136466242670435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, foundation models trained on massive datasets to adapt to a wide range of domains have attracted considerable attention and are actively being explored within the computer vision community. Among these, the Segment Anything Model (SAM) stands out for its remarkable progress in generalizability and flexibility for image segmentation tasks, achieved through prompt-based object mask generation. However, despite its strength, SAM faces two key limitations when applied to customized instance segmentation that segments specific objects or those in unique environments not typically present in the training data: 1) the ambiguity inherent in input prompts and 2) the necessity for extensive additional training to achieve optimal segmentation. To address these challenges, we propose a novel method, customized instance segmentation via prompt learning tailored to SAM. Our method involves a prompt learning module (PLM), which adjusts input prompts into the embedding space to better align with user intentions, thereby enabling more efficient training. Furthermore, we introduce a point matching module (PMM) to enhance the feature representation for finer segmentation by ensuring detailed alignment with ground truth boundaries. Experimental results on various customized instance segmentation scenarios demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): 近年,広範囲のドメインに対応するために大量のデータセットをトレーニングした基礎モデルは注目され,コンピュータビジョンコミュニティ内で積極的に研究されている。
これらのうち、SAM(Segment Anything Model)は、プロンプトベースのオブジェクトマスク生成によって達成される画像セグメンテーションタスクの一般化性と柔軟性の顕著な進歩を際立たせている。
しかし、SAMはその強みにもかかわらず、特定のオブジェクトやトレーニングデータに通常存在しないユニークな環境をセグメント化するカスタマイズされたインスタンスセグメンテーションに適用する場合、二つの重要な制限に直面している。
1)入力プロンプト及び入力プロンプトに固有のあいまいさ
2)最適なセグメンテーションを達成するために、広範な追加訓練が必要である。
これらの課題に対処するために,SAMに適合したプロンプト学習により,インスタンスセグメンテーションをカスタマイズする新しい手法を提案する。
提案手法は,ユーザ意図に合わせた入力プロンプトを埋め込み空間に調整し,より効率的な学習を可能にするプロンプト学習モジュール (PLM) を備える。
さらに,より細かなセグメンテーションのための特徴表現を強化するために,基底の真理境界との詳細な整合性を確保するために,ポイントマッチングモジュール(PMM)を導入する。
様々なカスタマイズされたインスタンスセグメンテーションシナリオの実験結果から,提案手法の有効性が示された。
関連論文リスト
- Task Consistent Prototype Learning for Incremental Few-shot Semantic Segmentation [20.49085411104439]
Incrmental Few-Shot Semantic (iFSS)は、新しいクラスにおけるセグメンテーション能力を継続的に拡張するモデルを必要とするタスクに取り組む。
本研究では,メタラーニングに基づくプロトタイプ手法を導入し,モデルに事前知識を保ちながら,迅速な適応方法の学習を促す。
PASCALとCOCOベンチマークに基づいて構築されたiFSSデータセットの実験は、提案手法の高度な性能を示している。
論文 参考訳(メタデータ) (2024-10-16T23:42:27Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM [37.1263294647351]
BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。
BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-26T06:36:32Z) - Universal Segmentation at Arbitrary Granularity with Language
Instruction [59.76130089644841]
言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。
UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
論文 参考訳(メタデータ) (2023-12-04T04:47:48Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。