論文の概要: SEGIC: Unleashing the Emergent Correspondence for In-Context
Segmentation
- arxiv url: http://arxiv.org/abs/2311.14671v1
- Date: Fri, 24 Nov 2023 18:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 14:12:28.399117
- Title: SEGIC: Unleashing the Emergent Correspondence for In-Context
Segmentation
- Title(参考訳): SEGIC: インコンテキストセグメンテーションのための創発的対応
- Authors: Lingchen Meng, Shiyi Lan, Hengduo Li, Jose M. Alvarez, Zuxuan Wu,
Yu-Gang Jiang
- Abstract要約: In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。
単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
- 参考スコア(独自算出の注目度): 92.38126816601796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context segmentation aims at segmenting novel images using a few labeled
example images, termed as "in-context examples", exploring content similarities
between examples and the target. The resulting models can be generalized
seamlessly to novel segmentation tasks, significantly reducing the labeling and
training costs compared with conventional pipelines. However, in-context
segmentation is more challenging than classic ones due to its meta-learning
nature, requiring the model to learn segmentation rules conditioned on a few
samples, not just the segmentation. Unlike previous work with ad-hoc or
non-end-to-end designs, we propose SEGIC, an end-to-end segment-in-context
framework built upon a single vision foundation model (VFM). In particular,
SEGIC leverages the emergent correspondence within VFM to capture dense
relationships between target images and in-context samples. As such,
information from in-context samples is then extracted into three types of
instructions, i.e. geometric, visual, and meta instructions, serving as
explicit conditions for the final mask prediction. SEGIC is a straightforward
yet effective approach that yields state-of-the-art performance on one-shot
segmentation benchmarks. Notably, SEGIC can be easily generalized to diverse
tasks, including video object segmentation and open-vocabulary segmentation.
Code will be available at \url{https://github.com/MengLcool/SEGIC}.
- Abstract(参考訳): インコンテキストセグメンテーション(In-context segmentation)は、いくつかのラベル付き例画像を用いて、サンプルとターゲットの間のコンテンツ類似性を探ることを目的としている。
その結果得られたモデルは、新しいセグメンテーションタスクにシームレスに一般化でき、従来のパイプラインに比べてラベリングとトレーニングのコストを大幅に削減できる。
しかし、文脈内セグメンテーションはメタラーニングの性質から古典的なセグメンテーションよりも困難であり、セグメンテーションだけでなく、少数のサンプルで条件付けられたセグメンテーションルールを学習する必要がある。
アドホックや非エンドツーエンドの設計と異なり、単一ビジョン基盤モデル(VFM)上に構築されたエンドツーエンドセグメント・イン・コンテクストフレームワークSEGICを提案する。
特に、SEGICはVFM内の創発的対応を利用して、ターゲット画像とコンテキスト内サンプル間の密接な関係をキャプチャする。
このように、コンテキスト内サンプルからの情報は、3種類の命令(幾何学、視覚、メタ命令)に抽出され、最終的なマスク予測の明示的な条件となる。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
特にsegicは、ビデオオブジェクトのセグメンテーションやオープンボキャブラリーセグメンテーションなど、さまざまなタスクに簡単に一般化できる。
コードは \url{https://github.com/MengLcool/SEGIC} で入手できる。
関連論文リスト
- Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - SegGPT: Segmenting Everything In Context [98.98487097934067]
コンテキスト内ですべてをセグメント化するモデルであるSegGPTを提示する。
様々なセグメンテーションタスクを汎用的なインコンテキスト学習フレームワークに統合する。
SegGPTは、コンテクスト内推論を通じて、画像やビデオの任意のセグメンテーションタスクを実行することができる。
論文 参考訳(メタデータ) (2023-04-06T17:59:57Z) - FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation [42.89720785573885]
FreeSegはUnified、Universal、Open-Vocabulary Imageを実現するための汎用フレームワークである。
我々は,FreeSegが3つのセグメンテーションタスクの性能と一般化に新たな成果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-30T08:42:49Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Instance Segmentation of Unlabeled Modalities via Cyclic Segmentation
GAN [27.936725483892076]
本稿では,画像翻訳とインスタンスセグメンテーションを共同で行うCysic Generative Adrial Network(CySGAN)を提案する。
注記電子顕微鏡(en:Annotated electron microscopy, EM)画像とラベルなし拡張顕微鏡(en:Unlabeled expansion microscopy, ExM)データを用いて, ニューロンの3次元セグメンテーションの課題についてベンチマークを行った。
論文 参考訳(メタデータ) (2022-04-06T20:46:39Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Sparse Object-level Supervision for Instance Segmentation with Pixel
Embeddings [4.038011160363972]
ほとんどの最先端のインスタンスセグメンテーションメソッドは、密接な注釈付き画像でトレーニングする必要があります。
非空間埋め込みに基づく提案フリーセグメンテーション手法を提案する。
本研究では, 異なる顕微鏡モードにおける2次元および3次元分割問題の解法について検討した。
論文 参考訳(メタデータ) (2021-03-26T16:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。