論文の概要: Zero Shot Context-Based Object Segmentation using SLIP (SAM+CLIP)
- arxiv url: http://arxiv.org/abs/2405.07284v1
- Date: Sun, 12 May 2024 13:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 15:34:20.477113
- Title: Zero Shot Context-Based Object Segmentation using SLIP (SAM+CLIP)
- Title(参考訳): SLIP(SAM+CLIP)を用いたゼロショットコンテキストベースオブジェクトセグメンテーション
- Authors: Saaketh Koundinya Gundavarapu, Arushi Arora, Shreya Agarwal,
- Abstract要約: ゼロショットオブジェクトセグメンテーションのための拡張アーキテクチャであるSLIPを提案する。
SLIPはSegment Anything Model (SAM)とContrastive Language- Image Pretraining (CLIP)を組み合わせた。
Pokemonデータセット上でCLIPを微調整し、意味のある画像テキスト表現を学習できるようにします。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SLIP (SAM+CLIP), an enhanced architecture for zero-shot object segmentation. SLIP combines the Segment Anything Model (SAM) \cite{kirillov2023segment} with the Contrastive Language-Image Pretraining (CLIP) \cite{radford2021learning}. By incorporating text prompts into SAM using CLIP, SLIP enables object segmentation without prior training on specific classes or categories. We fine-tune CLIP on a Pokemon dataset, allowing it to learn meaningful image-text representations. SLIP demonstrates the ability to recognize and segment objects in images based on contextual information from text prompts, expanding the capabilities of SAM for versatile object segmentation. Our experiments demonstrate the effectiveness of the SLIP architecture in segmenting objects in images based on textual cues. The integration of CLIP's text-image understanding capabilities into SAM expands the capabilities of the original architecture and enables more versatile and context-aware object segmentation.
- Abstract(参考訳): ゼロショットオブジェクトセグメンテーションのための拡張アーキテクチャであるSLIP(SAM+CLIP)を提案する。
SLIPはSegment Anything Model (SAM) \cite{kirillov2023segment}とContrastive Language- Image Pretraining (CLIP) \cite{radford2021learning}を組み合わせたものである。
CLIPを使ってSAMにテキストプロンプトを組み込むことで、SLIPは特定のクラスやカテゴリの事前トレーニングなしにオブジェクトセグメンテーションを可能にする。
Pokemonデータセット上でCLIPを微調整し、意味のある画像テキスト表現を学習できるようにします。
SLIPは、テキストプロンプトからコンテキスト情報に基づいて画像中のオブジェクトを認識およびセグメント化できることを示し、多目的オブジェクトセグメンテーションのためのSAMの機能を拡張する。
本実験は,テキストによる画像のセグメント化におけるSLIPアーキテクチャの有効性を実証するものである。
CLIPのテキストイメージ理解機能をSAMに統合することで、元のアーキテクチャの機能を拡張し、より汎用的でコンテキスト対応のオブジェクトセグメンテーションを可能にする。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - Test-Time Adaptation with SaLIP: A Cascade of SAM and CLIP for Zero shot Medical Image Segmentation [10.444726122035133]
臓器分割のための単純な統合フレームワークSaLIPを提案する。
SAMは画像内の部分ベースのセグメンテーションに使用され、CLIPは関心領域に対応するマスクを検索する。
最後に、SAMは検索されたROIによって特定の臓器を分節するように促される。
論文 参考訳(メタデータ) (2024-04-09T14:56:34Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - LCCo: Lending CLIP to Co-Segmentation [6.928807154120318]
タスクには、対照的な言語イメージ事前学習フレームワーク(CLIP)を活用します。
データセットから各イメージを独立に処理するバックボーンセグメンテーションネットワークにより、CLIPのセマンティクスをバックボーン機能に導入する。
4つの標準コセグメンテーションベンチマークデータセットの実験により、我々の手法の性能は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-22T15:27:52Z) - PerceptionCLIP: Visual Classification by Inferring and Conditioning on Contexts [33.109305627550405]
本稿では,人間の視覚知覚過程からインスピレーションを得る。
トレーニング不要で2段階のゼロショット分類手法であるPerceptionCLIPを提案する。
実験の結果,PerceptionCLIPはより優れた一般化,グループロバスト性,相互運用性を実現することがわかった。
論文 参考訳(メタデータ) (2023-08-02T17:57:25Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。