論文の概要: SAMIC: Segment Anything with In-Context Spatial Prompt Engineering
- arxiv url: http://arxiv.org/abs/2412.11998v1
- Date: Mon, 16 Dec 2024 17:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:37.736493
- Title: SAMIC: Segment Anything with In-Context Spatial Prompt Engineering
- Title(参考訳): SAMIC:In-Context Space Prompt Engineeringによるセグメンテーション
- Authors: Savinay Nagendra, Kashif Rashid, Chaopeng Shen, Daniel Kifer,
- Abstract要約: 既存のビジョンファウンデーションモデル(VFM)を活用して、新しいドメインのための数ショットセグメンテーションモデルを作成するためのインクリメンタルコストを削減する方法について説明する。
具体的には、ドメイン固有のアプリケーションに新しいタイプのオブジェクトを分割するために、VFMをプロンプトする方法を学ぶ小さなネットワークSAMICを紹介する。
- 参考スコア(独自算出の注目度): 6.900101619562999
- License:
- Abstract: Few-shot segmentation is the problem of learning to identify specific types of objects (e.g., airplanes) in images from a small set of labeled reference images. The current state of the art is driven by resource-intensive construction of models for every new domain-specific application. Such models must be trained on enormous labeled datasets of unrelated objects (e.g., cars, trains, animals) so that their ``knowledge'' can be transferred to new types of objects. In this paper, we show how to leverage existing vision foundation models (VFMs) to reduce the incremental cost of creating few-shot segmentation models for new domains. Specifically, we introduce SAMIC, a small network that learns how to prompt VFMs in order to segment new types of objects in domain-specific applications. SAMIC enables any task to be approached as a few-shot learning problem. At 2.6 million parameters, it is 94% smaller than the leading models (e.g., having ResNet 101 backbone with 45+ million parameters). Even using 1/5th of the training data provided by one-shot benchmarks, SAMIC is competitive with, or sets the state of the art, on a variety of few-shot and semantic segmentation datasets including COCO-$20^i$, Pascal-$5^i$, PerSeg, FSS-1000, and NWPU VHR-10.
- Abstract(参考訳): 少ないショットセグメンテーションは、ラベル付き参照画像の小さなセットから、画像中の特定の種類の物体(例えば飛行機)を特定することを学習する問題である。
現在の最先端は、新しいドメイン固有アプリケーションごとに、リソース集約的なモデルの構築によって実現されている。
このようなモデルは、無関係なオブジェクト(例えば、車、電車、動物)の巨大なラベル付きデータセットでトレーニングされなければならない。
本稿では,既存のビジョンファウンデーションモデル(VFM)を活用して,新しいドメインのための少数ショットセグメンテーションモデルを作成するためのインクリメンタルコストを削減する方法について述べる。
具体的には、ドメイン固有のアプリケーションに新しいタイプのオブジェクトを分割するために、VFMをプロンプトする方法を学ぶ小さなネットワークSAMICを紹介する。
SAMICは、任意のタスクを数ショットの学習問題としてアプローチすることを可能にする。
2.60万のパラメータでは、主要なモデルよりも94%小さい(例えば、ResNet 101のバックボーンに45万以上のパラメータがある)。
ワンショットベンチマークで提供されるトレーニングデータの1/5でも、SAMICは、COCO-$20^i$、Pascal-$5^i$、PerSeg、FSS-1000、NWPU VHR-10など、いくつかのショットとセマンティックセマンティックセグメンテーションデータセットに対して、最先端のデータを競合あるいは設定している。
関連論文リスト
- Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z) - What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation [2.7036595757881323]
セマンティック(MESS)のマルチドメイン評価のためのベンチマークを構築した。
MESSは、幅広いドメイン固有のデータセットにわたるパフォーマンスの全体的な分析を可能にする。
提案したMESSベンチマークを用いて,最近発表された8つのモデルを評価し,ゼロショット転送モデルの性能評価を行った。
論文 参考訳(メタデータ) (2023-06-27T14:47:43Z) - Segment Anything [108.16489338211093]
私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。
このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。
多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
論文 参考訳(メタデータ) (2023-04-05T17:59:46Z) - MSANet: Multi-Similarity and Attention Guidance for Boosting Few-Shot
Segmentation [0.0]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
サポート機能が複数のプロトタイプを単体で生成するプロトタイプ学習は、FSSで広く使われている。
本稿では,2つのモジュール,多相性モジュール,および注目モジュールを含む多相性・注意ネットワーク(MSANet)を提案する。
論文 参考訳(メタデータ) (2022-06-20T09:14:17Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Fuzzy Simplicial Networks: A Topology-Inspired Model to Improve Task
Generalization in Few-shot Learning [1.0062040918634414]
少ないショット学習アルゴリズムは、限られたデータで新しいタスクをうまく一般化するように設計されている。
本稿では,Fizzy Simplicial Networks (FSN) と呼ばれる,トポロジから構築したモデルを用いて,限られたデータから各クラスをより柔軟に表現する手法を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:01:09Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z) - Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。
我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。
注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-06T19:12:08Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。