論文の概要: SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation
- arxiv url: http://arxiv.org/abs/2311.14671v2
- Date: Fri, 29 Mar 2024 08:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:17:13.016933
- Title: SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation
- Title(参考訳): SEGIC: インコンテキストセグメンテーションのための創発的対応を開放する
- Authors: Lingchen Meng, Shiyi Lan, Hengduo Li, Jose M. Alvarez, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。
単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
- 参考スコア(独自算出の注目度): 87.18373801829314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context segmentation aims at segmenting novel images using a few labeled example images, termed as "in-context examples", exploring content similarities between examples and the target. The resulting models can be generalized seamlessly to novel segmentation tasks, significantly reducing the labeling and training costs compared with conventional pipelines. However, in-context segmentation is more challenging than classic ones requiring the model to learn segmentation rules conditioned on a few samples. Unlike previous work with ad-hoc or non-end-to-end designs, we propose SEGIC, an end-to-end segment-in-context framework built upon a single vision foundation model (VFM). In particular, SEGIC leverages the emergent correspondence within VFM to capture dense relationships between target images and in-context samples. As such, information from in-context samples is then extracted into three types of instructions, i.e. geometric, visual, and meta instructions, serving as explicit conditions for the final mask prediction. SEGIC is a straightforward yet effective approach that yields state-of-the-art performance on one-shot segmentation benchmarks. Notably, SEGIC can be easily generalized to diverse tasks, including video object segmentation and open-vocabulary segmentation. Code will be available at https://github.com/MengLcool/SEGIC.
- Abstract(参考訳): インコンテキストセグメンテーション(In-context segmentation)は、いくつかのラベル付き例画像を用いて、サンプルとターゲットの間のコンテンツ類似性を探ることを目的としている。
得られたモデルは、新しいセグメンテーションタスクにシームレスに一般化することができ、従来のパイプラインと比較してラベル付けとトレーニングコストを大幅に削減できる。
しかし、コンテキスト内セグメンテーションは、モデルがいくつかのサンプルで条件付けられたセグメンテーションルールを学習する必要がある古典的セグメンテーションよりも難しい。
アドホックや非エンドツーエンドの設計と異なり、単一ビジョン基盤モデル(VFM)上に構築されたエンドツーエンドのセグメント・イン・コンテクストフレームワークであるSEGICを提案する。
特に、SEGICは、VFM内の創発的対応を利用して、ターゲット画像とコンテキスト内サンプル間の密接な関係をキャプチャする。
そのため、文脈内サンプルからの情報は幾何学的、視覚的、メタ的な3種類の命令に抽出され、最終的なマスク予測の明確な条件として機能する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
特に、SEGICは、ビデオオブジェクトのセグメンテーションやオープン語彙のセグメンテーションなど、様々なタスクに簡単に一般化できる。
コードはhttps://github.com/MengLcool/SEGICで入手できる。
関連論文リスト
- Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - SegGPT: Segmenting Everything In Context [98.98487097934067]
コンテキスト内ですべてをセグメント化するモデルであるSegGPTを提示する。
様々なセグメンテーションタスクを汎用的なインコンテキスト学習フレームワークに統合する。
SegGPTは、コンテクスト内推論を通じて、画像やビデオの任意のセグメンテーションタスクを実行することができる。
論文 参考訳(メタデータ) (2023-04-06T17:59:57Z) - FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation [42.89720785573885]
FreeSegはUnified、Universal、Open-Vocabulary Imageを実現するための汎用フレームワークである。
我々は,FreeSegが3つのセグメンテーションタスクの性能と一般化に新たな成果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-30T08:42:49Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Instance Segmentation of Unlabeled Modalities via Cyclic Segmentation
GAN [27.936725483892076]
本稿では,画像翻訳とインスタンスセグメンテーションを共同で行うCysic Generative Adrial Network(CySGAN)を提案する。
注記電子顕微鏡(en:Annotated electron microscopy, EM)画像とラベルなし拡張顕微鏡(en:Unlabeled expansion microscopy, ExM)データを用いて, ニューロンの3次元セグメンテーションの課題についてベンチマークを行った。
論文 参考訳(メタデータ) (2022-04-06T20:46:39Z) - A Unified Efficient Pyramid Transformer for Semantic Segmentation [40.20512714144266]
我々はコンテキスト情報と境界アーティファクトの両方を考慮してオブジェクトをセグメント化する統一フレームワーク(UN-EPT)を提唱する。
我々はまず,効率的なコンテキストモデリングのために,トランスフォーマーに基づくアテンション機構を組み込むため,スパースサンプリング戦略を適用した。
メモリフットプリントの少ないセマンティックセグメンテーションのための3つの人気のあるベンチマークで有望な性能を示す。
論文 参考訳(メタデータ) (2021-07-29T17:47:32Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。