論文の概要: Towards Training-free Open-world Segmentation via Image Prompt
Foundation Models
- arxiv url: http://arxiv.org/abs/2310.10912v2
- Date: Mon, 18 Dec 2023 00:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:58:42.065160
- Title: Towards Training-free Open-world Segmentation via Image Prompt
Foundation Models
- Title(参考訳): Image Prompt Foundation Modelsによるフリーオープンワールドセグメンテーションに向けて
- Authors: Lv Tang, Peng-Tao Jiang, Hao-Ke Xiao, Bo Li
- Abstract要約: Image Prompt(IPSeg)は、画像プロンプト技術を利用したトレーニングフリーのパラダイムである。
IPSegは、主観的視覚概念を含む単一のイメージを、視覚基盤モデルをクエリするための柔軟なプロンプトとして利用する。
提案手法は,プロンプト画像と入力画像のロバストな特徴を抽出し,入力表現とプロンプト表現とのマッチングを行う。
- 参考スコア(独自算出の注目度): 14.988971382419138
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The realm of computer vision has witnessed a paradigm shift with the advent
of foundational models, mirroring the transformative influence of large
language models in the domain of natural language processing. This paper delves
into the exploration of open-world segmentation, presenting a novel approach
called Image Prompt Segmentation (IPSeg) that harnesses the power of vision
foundational models. IPSeg lies the principle of a training-free paradigm,
which capitalizes on image prompt techniques. Specifically, IPSeg utilizes a
single image containing a subjective visual concept as a flexible prompt to
query vision foundation models like DINOv2 and Stable Diffusion. Our approach
extracts robust features for the prompt image and input image, then matches the
input representations to the prompt representations via a novel feature
interaction module to generate point prompts highlighting target objects in the
input image. The generated point prompts are further utilized to guide the
Segment Anything Model to segment the target object in the input image. The
proposed method stands out by eliminating the need for exhaustive training
sessions, thereby offering a more efficient and scalable solution. Experiments
on COCO, PASCAL VOC, and other datasets demonstrate IPSeg's efficacy for
flexible open-world segmentation using intuitive image prompts. This work
pioneers tapping foundation models for open-world understanding through visual
concepts conveyed in images.
- Abstract(参考訳): コンピュータビジョンの領域は、自然言語処理の領域における大きな言語モデルの変換的影響を反映した、基礎モデルの出現によるパラダイムシフトを目撃している。
本稿では,オープンワールドセグメンテーションの探求を探究し,視覚基礎モデルのパワーを活用したイメージプロンプトセグメンテーション(ipseg)と呼ばれる新しいアプローチを提案する。
IPSegは、イメージプロンプト技術を利用したトレーニング不要のパラダイムの原則である。
具体的には、IPSegは、DINOv2やStable Diffusionのような視覚基盤モデルにクエリするフレキシブルプロンプトとして、主観的な視覚概念を含む単一のイメージを使用している。
提案手法は、プロンプト画像と入力画像のロバストな特徴を抽出し、入力表現とプロンプト表現を新しい特徴対話モジュールでマッチングし、入力画像中の対象オブジェクトをハイライトするポイントプロンプトを生成する。
生成されたポイントプロンプトは、さらにSegment Anything Modelを誘導して、ターゲットオブジェクトを入力画像にセグメントする。
提案手法は,総合的なトレーニングセッションの必要性を排除し,より効率的でスケーラブルなソリューションを提供する。
COCO、PASCAL VOC、その他のデータセットの実験では、直感的な画像プロンプトを用いたフレキシブルなオープンワールドセグメンテーションに対するIPSegの有効性が示されている。
この研究は、イメージに伝達される視覚概念を通して、オープンワールドの理解のための基礎モデルに取り組む先駆者である。
関連論文リスト
- Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Few-Shot Panoptic Segmentation With Foundation Models [23.231014713335664]
約0ラベルのSegmenting Panoptic Information(SPINO)を提示することで、タスク非依存の画像特徴を活用して、少ショットのパノプティクスセグメンテーションを可能にすることを提案する。
本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。
提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。
論文 参考訳(メタデータ) (2023-09-19T16:09:01Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Diffusion Models for Zero-Shot Open-Vocabulary Segmentation [97.25882784890456]
本稿では,ゼロショット開語彙セグメンテーションのための新しい手法を提案する。
我々は,大規模テキスト・画像拡散モデルの生成特性を利用して,支援画像の集合をサンプリングする。
提案手法は,既存の事前学習型自己教師型特徴抽出器を自然言語で抽出するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。