論文の概要: Towards Training-free Open-world Segmentation via Image Prompt Foundation Models
- arxiv url: http://arxiv.org/abs/2310.10912v3
- Date: Wed, 26 Jun 2024 01:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 19:44:08.163513
- Title: Towards Training-free Open-world Segmentation via Image Prompt Foundation Models
- Title(参考訳): イメージ・プロンプト・ファンデーション・モデルによるフリーオープンワールドセグメンテーションに向けて
- Authors: Lv Tang, Peng-Tao Jiang, Hao-Ke Xiao, Bo Li,
- Abstract要約: Image Prompt(IPSeg)は、画像プロンプト技術を利用したトレーニングフリーのパラダイムである。
IPSegは、主観的視覚概念を含む単一のイメージを、視覚基盤モデルをクエリするための柔軟なプロンプトとして利用する。
提案手法は,プロンプト画像と入力画像のロバストな特徴を抽出し,入力表現とプロンプト表現とのマッチングを行う。
- 参考スコア(独自算出の注目度): 13.720784509709496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The realm of computer vision has witnessed a paradigm shift with the advent of foundational models, mirroring the transformative influence of large language models in the domain of natural language processing. This paper delves into the exploration of open-world segmentation, presenting a novel approach called Image Prompt Segmentation (IPSeg) that harnesses the power of vision foundational models. IPSeg lies the principle of a training-free paradigm, which capitalizes on image prompt techniques. Specifically, IPSeg utilizes a single image containing a subjective visual concept as a flexible prompt to query vision foundation models like DINOv2 and Stable Diffusion. Our approach extracts robust features for the prompt image and input image, then matches the input representations to the prompt representations via a novel feature interaction module to generate point prompts highlighting target objects in the input image. The generated point prompts are further utilized to guide the Segment Anything Model to segment the target object in the input image. The proposed method stands out by eliminating the need for exhaustive training sessions, thereby offering a more efficient and scalable solution. Experiments on COCO, PASCAL VOC, and other datasets demonstrate IPSeg's efficacy for flexible open-world segmentation using intuitive image prompts. This work pioneers tapping foundation models for open-world understanding through visual concepts conveyed in images.
- Abstract(参考訳): コンピュータビジョンの領域は、自然言語処理の領域における大きな言語モデルの変革的影響を反映して、基礎モデルの出現とともにパラダイムシフトを目撃している。
本稿では,オープンワールドセグメンテーションを探求し,視覚基盤モデルの力を生かした Image Prompt Segmentation (IPSeg) と呼ばれる新しいアプローチを提案する。
IPSegは、イメージプロンプト技術を活用する、トレーニング不要のパラダイムの原則である。
具体的には、IPSegは、DINOv2やStable Diffusionのような視覚基盤モデルにクエリするフレキシブルプロンプトとして、主観的な視覚概念を含む単一のイメージを使用している。
提案手法は,プロンプト画像とインプット画像のロバストな特徴を抽出し,入力表現とプロンプト表現とを新たな特徴相互作用モジュールを介してマッチングすることにより,入力画像中のターゲットオブジェクトをハイライトするポイントプロンプトを生成する。
生成されたポイントプロンプトは、さらにSegment Anything Modelを誘導して、ターゲットオブジェクトを入力画像にセグメントする。
提案手法は,総合的なトレーニングセッションの必要性を排除し,より効率的でスケーラブルなソリューションを提供する。
COCO、PASCAL VOC、その他のデータセットの実験では、直感的な画像プロンプトを用いたフレキシブルなオープンワールドセグメンテーションに対するIPSegの有効性が示されている。
この研究は、イメージに伝達される視覚概念を通して、オープンワールドの理解のための基礎モデルに取り組む先駆者である。
関連論文リスト
- Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models [0.0]
自己教師付き学習は、効果的に訓練された場合、多数の画像や言語処理の問題を解決することができる。
本研究では, セマンティックセグメンテーションタスクに対して, 以前に学習した基礎モデルを適用するための簡易かつ効率的な手法について検討した。
本研究は,少数の画像分割データを用いて,凍結画像表現と言語概念を融合する軽量トランスフォーマーベース融合モジュールであるBeyond-Labelsを提案する。
論文 参考訳(メタデータ) (2025-01-28T07:49:52Z) - LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。
本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。
提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T05:49:42Z) - CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。