論文の概要: SEGIC: Unleashing the Emergent Correspondence for In-Context
Segmentation
- arxiv url: http://arxiv.org/abs/2311.14671v1
- Date: Fri, 24 Nov 2023 18:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 14:12:28.399117
- Title: SEGIC: Unleashing the Emergent Correspondence for In-Context
Segmentation
- Title(参考訳): SEGIC: インコンテキストセグメンテーションのための創発的対応
- Authors: Lingchen Meng, Shiyi Lan, Hengduo Li, Jose M. Alvarez, Zuxuan Wu,
Yu-Gang Jiang
- Abstract要約: In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。
単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
- 参考スコア(独自算出の注目度): 92.38126816601796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context segmentation aims at segmenting novel images using a few labeled
example images, termed as "in-context examples", exploring content similarities
between examples and the target. The resulting models can be generalized
seamlessly to novel segmentation tasks, significantly reducing the labeling and
training costs compared with conventional pipelines. However, in-context
segmentation is more challenging than classic ones due to its meta-learning
nature, requiring the model to learn segmentation rules conditioned on a few
samples, not just the segmentation. Unlike previous work with ad-hoc or
non-end-to-end designs, we propose SEGIC, an end-to-end segment-in-context
framework built upon a single vision foundation model (VFM). In particular,
SEGIC leverages the emergent correspondence within VFM to capture dense
relationships between target images and in-context samples. As such,
information from in-context samples is then extracted into three types of
instructions, i.e. geometric, visual, and meta instructions, serving as
explicit conditions for the final mask prediction. SEGIC is a straightforward
yet effective approach that yields state-of-the-art performance on one-shot
segmentation benchmarks. Notably, SEGIC can be easily generalized to diverse
tasks, including video object segmentation and open-vocabulary segmentation.
Code will be available at \url{https://github.com/MengLcool/SEGIC}.
- Abstract(参考訳): インコンテキストセグメンテーション(In-context segmentation)は、いくつかのラベル付き例画像を用いて、サンプルとターゲットの間のコンテンツ類似性を探ることを目的としている。
その結果得られたモデルは、新しいセグメンテーションタスクにシームレスに一般化でき、従来のパイプラインに比べてラベリングとトレーニングのコストを大幅に削減できる。
しかし、文脈内セグメンテーションはメタラーニングの性質から古典的なセグメンテーションよりも困難であり、セグメンテーションだけでなく、少数のサンプルで条件付けられたセグメンテーションルールを学習する必要がある。
アドホックや非エンドツーエンドの設計と異なり、単一ビジョン基盤モデル(VFM)上に構築されたエンドツーエンドセグメント・イン・コンテクストフレームワークSEGICを提案する。
特に、SEGICはVFM内の創発的対応を利用して、ターゲット画像とコンテキスト内サンプル間の密接な関係をキャプチャする。
このように、コンテキスト内サンプルからの情報は、3種類の命令(幾何学、視覚、メタ命令)に抽出され、最終的なマスク予測の明示的な条件となる。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
特にsegicは、ビデオオブジェクトのセグメンテーションやオープンボキャブラリーセグメンテーションなど、さまざまなタスクに簡単に一般化できる。
コードは \url{https://github.com/MengLcool/SEGIC} で入手できる。
関連論文リスト
- A Simple Image Segmentation Framework via In-Context Examples [59.319920526160466]
本稿では,テキスト内例を利用したシンプルな画像フレームワークであるSINEを提案する。
In-context Interactionモジュールを導入し、インコンテキスト情報を補完し、ターゲット画像とインコンテキストの例との相関関係を生成する。
様々なセグメンテーションタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-07T08:59:05Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Instance Segmentation of Unlabeled Modalities via Cyclic Segmentation
GAN [27.936725483892076]
本稿では,画像翻訳とインスタンスセグメンテーションを共同で行うCysic Generative Adrial Network(CySGAN)を提案する。
注記電子顕微鏡(en:Annotated electron microscopy, EM)画像とラベルなし拡張顕微鏡(en:Unlabeled expansion microscopy, ExM)データを用いて, ニューロンの3次元セグメンテーションの課題についてベンチマークを行った。
論文 参考訳(メタデータ) (2022-04-06T20:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。