論文の概要: Learning to Prompt Segment Anything Models
- arxiv url: http://arxiv.org/abs/2401.04651v1
- Date: Tue, 9 Jan 2024 16:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:10:12.667662
- Title: Learning to Prompt Segment Anything Models
- Title(参考訳): あらゆるモデルをセグメント化するための学習
- Authors: Jiaxing Huang, Kai Jiang, Jingyi Zhang, Han Qiu, Lewei Lu, Shijian Lu
and Eric Xing
- Abstract要約: Segment Anything Models (SAM)は、何かをセグメント化する学習において大きな可能性を実証している。
SAMは、空間的プロンプト(例えば、点)と意味的プロンプト(例えば、テキスト)を含む2種類のプロンプトで動作する。
より優れたSAMのための効果的な意味と空間的プロンプトを学習する空間意味的プロンプト学習(SSPrompt)を提案する。
- 参考スコア(独自算出の注目度): 55.805816693815835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Models (SAMs) like SEEM and SAM have demonstrated great
potential in learning to segment anything. The core design of SAMs lies with
Promptable Segmentation, which takes a handcrafted prompt as input and returns
the expected segmentation mask. SAMs work with two types of prompts including
spatial prompts (e.g., points) and semantic prompts (e.g., texts), which work
together to prompt SAMs to segment anything on downstream datasets. Despite the
important role of prompts, how to acquire suitable prompts for SAMs is largely
under-explored. In this work, we examine the architecture of SAMs and identify
two challenges for learning effective prompts for SAMs. To this end, we propose
spatial-semantic prompt learning (SSPrompt) that learns effective semantic and
spatial prompts for better SAMs. Specifically, SSPrompt introduces spatial
prompt learning and semantic prompt learning, which optimize spatial prompts
and semantic prompts directly over the embedding space and selectively leverage
the knowledge encoded in pre-trained prompt encoders. Extensive experiments
show that SSPrompt achieves superior image segmentation performance
consistently across multiple widely adopted datasets.
- Abstract(参考訳): SEEMやSAMのようなセグメンテーション任意のモデル(SAM)は、何かをセグメンテーションする方法を学ぶ大きな可能性を実証しています。
SAMのコアデザインはPromptable Segmentationで、手作りのプロンプトを入力として取り、期待されるセグメンテーションマスクを返す。
SAMは、空間的プロンプト(例えば点)と意味的プロンプト(例えばテキスト)を含む2つのタイプのプロンプトで動作する。
プロンプトの役割は重要であるが、samsの適切なプロンプトを取得する方法はほとんど未検討である。
本研究では,SAMのアーキテクチャを検証し,SAMの効果的なプロンプトを学習するための2つの課題を特定する。
この目的のために,より優れたSAMのための効果的な意味と空間的プロンプトを学習する空間意味的プロンプト学習(SSPrompt)を提案する。
具体的には、空間的プロンプト学習と意味的プロンプト学習を導入し、空間的プロンプトと意味的プロンプトを直接埋め込み空間上で最適化し、事前訓練されたプロンプトエンコーダで符号化された知識を選択的に活用する。
広範な実験により、sspromptは、複数の広く採用されているデータセットで一貫して優れた画像セグメンテーション性能を達成できることが示されている。
関連論文リスト
- SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model [41.29719405544942]
初期ビジョン言語Fusion-based SAM (EVF-SAM) について紹介する。
EVF-SAMは、マルチモーダルプロンプト(画像とテキスト)を利用する、シンプルだが効果的な参照セグメンテーション手法である
BEIT-3をベースとしたEVF-SAMにより,RefCOCO/+/gにおける表現セグメンテーションの最先端性能が得られた。
論文 参考訳(メタデータ) (2024-06-28T17:38:18Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively [69.97238935096094]
Open-Vocabulary SAMはSAMにインスパイアされたモデルであり、対話的なセグメンテーションと認識のために設計されている。
約22,000のクラスを分類・認識できる。
論文 参考訳(メタデータ) (2024-01-05T18:59:22Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。