論文の概要: Towards Training-free Open-world Segmentation via Image Prompting
Foundation Models
- arxiv url: http://arxiv.org/abs/2310.10912v1
- Date: Tue, 17 Oct 2023 01:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:14:33.816937
- Title: Towards Training-free Open-world Segmentation via Image Prompting
Foundation Models
- Title(参考訳): イメージプロンプティング基礎モデルによるフリーオープンワールドセグメンテーションに向けて
- Authors: Lv Tang, Peng-Tao Jiang, Hao-Ke Xiao, Bo Li
- Abstract要約: 本稿では,視覚基盤モデルのパワーを活用する新しいアプローチである Image Prompt (IPSeg) を提案する。
IPSegは、主観的視覚概念を含む単一のイメージを、視覚基盤モデルをクエリするための柔軟なプロンプトとして利用する。
提案手法は,プロンプト画像と入力画像のロバストな特徴を抽出し,入力表現とプロンプト表現とのマッチングを行う。
- 参考スコア(独自算出の注目度): 14.988971382419138
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The realm of computer vision has witnessed a paradigm shift with the advent
of foundational models, mirroring the transformative influence of large
language models in the domain of natural language processing. This paper delves
into the exploration of open-world segmentation, presenting a novel approach
called Image Prompt Segmentation (IPSeg) that harnesses the power of vision
foundational models. At the heart of IPSeg lies the principle of a
training-free paradigm, which capitalizes on image prompting techniques. IPSeg
utilizes a single image containing a subjective visual concept as a flexible
prompt to query vision foundation models like DINOv2 and Stable Diffusion. Our
approach extracts robust features for the prompt image and input image, then
matches the input representations to the prompt representations via a novel
feature interaction module to generate point prompts highlighting target
objects in the input image. The generated point prompts are further utilized to
guide the Segment Anything Model to segment the target object in the input
image. The proposed method stands out by eliminating the need for exhaustive
training sessions, thereby offering a more efficient and scalable solution.
Experiments on COCO, PASCAL VOC, and other datasets demonstrate IPSeg's
efficacy for flexible open-world segmentation using intuitive image prompts.
This work pioneers tapping foundation models for open-world understanding
through visual concepts conveyed in images.
- Abstract(参考訳): コンピュータビジョンの領域は、自然言語処理の領域における大きな言語モデルの変換的影響を反映した、基礎モデルの出現によるパラダイムシフトを目撃している。
本稿では,オープンワールドセグメンテーションの探求を探究し,視覚基礎モデルのパワーを活用したイメージプロンプトセグメンテーション(ipseg)と呼ばれる新しいアプローチを提案する。
IPSegの核心にあるのは、イメージプロンプト技術を活用するトレーニングフリーパラダイムの原則である。
IPSegは、DINOv2やStable Diffusionのような視覚基盤モデルをクエリするためのフレキシブルプロンプトとして、主観的な視覚概念を含む単一のイメージを使用している。
提案手法は、プロンプト画像と入力画像のロバストな特徴を抽出し、入力表現とプロンプト表現を新しい特徴対話モジュールでマッチングし、入力画像中の対象オブジェクトをハイライトするポイントプロンプトを生成する。
生成されたポイントプロンプトは、さらにSegment Anything Modelを誘導して、ターゲットオブジェクトを入力画像にセグメントする。
提案手法は,総合的なトレーニングセッションの必要性を排除し,より効率的でスケーラブルなソリューションを提供する。
COCO、PASCAL VOC、その他のデータセットの実験では、直感的な画像プロンプトを用いたフレキシブルなオープンワールドセグメンテーションに対するIPSegの有効性が示されている。
この研究は、イメージに伝達される視覚概念を通して、オープンワールドの理解のための基礎モデルに取り組む先駆者である。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Prompt Optimizer of Text-to-Image Diffusion Models for Abstract Concept Understanding [9.787025432074978]
本稿では,Pmpt for Abstract Concepts (POAC)を導入し,テキスト・画像拡散モデルの性能向上を図る。
本稿では,事前学習した言語モデルから算出したPrompt Language Model (PLM)を提案する。
本フレームワークでは, 安定拡散モデルと最適化プロンプトによる画像のアライメントに着目し, 強化学習(RL)に基づく最適化戦略を採用している。
論文 参考訳(メタデータ) (2024-04-17T17:38:56Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。