論文の概要: Towards Training-free Open-world Segmentation via Image Prompting
Foundation Models
- arxiv url: http://arxiv.org/abs/2310.10912v1
- Date: Tue, 17 Oct 2023 01:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:14:33.816937
- Title: Towards Training-free Open-world Segmentation via Image Prompting
Foundation Models
- Title(参考訳): イメージプロンプティング基礎モデルによるフリーオープンワールドセグメンテーションに向けて
- Authors: Lv Tang, Peng-Tao Jiang, Hao-Ke Xiao, Bo Li
- Abstract要約: 本稿では,視覚基盤モデルのパワーを活用する新しいアプローチである Image Prompt (IPSeg) を提案する。
IPSegは、主観的視覚概念を含む単一のイメージを、視覚基盤モデルをクエリするための柔軟なプロンプトとして利用する。
提案手法は,プロンプト画像と入力画像のロバストな特徴を抽出し,入力表現とプロンプト表現とのマッチングを行う。
- 参考スコア(独自算出の注目度): 14.988971382419138
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The realm of computer vision has witnessed a paradigm shift with the advent
of foundational models, mirroring the transformative influence of large
language models in the domain of natural language processing. This paper delves
into the exploration of open-world segmentation, presenting a novel approach
called Image Prompt Segmentation (IPSeg) that harnesses the power of vision
foundational models. At the heart of IPSeg lies the principle of a
training-free paradigm, which capitalizes on image prompting techniques. IPSeg
utilizes a single image containing a subjective visual concept as a flexible
prompt to query vision foundation models like DINOv2 and Stable Diffusion. Our
approach extracts robust features for the prompt image and input image, then
matches the input representations to the prompt representations via a novel
feature interaction module to generate point prompts highlighting target
objects in the input image. The generated point prompts are further utilized to
guide the Segment Anything Model to segment the target object in the input
image. The proposed method stands out by eliminating the need for exhaustive
training sessions, thereby offering a more efficient and scalable solution.
Experiments on COCO, PASCAL VOC, and other datasets demonstrate IPSeg's
efficacy for flexible open-world segmentation using intuitive image prompts.
This work pioneers tapping foundation models for open-world understanding
through visual concepts conveyed in images.
- Abstract(参考訳): コンピュータビジョンの領域は、自然言語処理の領域における大きな言語モデルの変換的影響を反映した、基礎モデルの出現によるパラダイムシフトを目撃している。
本稿では,オープンワールドセグメンテーションの探求を探究し,視覚基礎モデルのパワーを活用したイメージプロンプトセグメンテーション(ipseg)と呼ばれる新しいアプローチを提案する。
IPSegの核心にあるのは、イメージプロンプト技術を活用するトレーニングフリーパラダイムの原則である。
IPSegは、DINOv2やStable Diffusionのような視覚基盤モデルをクエリするためのフレキシブルプロンプトとして、主観的な視覚概念を含む単一のイメージを使用している。
提案手法は、プロンプト画像と入力画像のロバストな特徴を抽出し、入力表現とプロンプト表現を新しい特徴対話モジュールでマッチングし、入力画像中の対象オブジェクトをハイライトするポイントプロンプトを生成する。
生成されたポイントプロンプトは、さらにSegment Anything Modelを誘導して、ターゲットオブジェクトを入力画像にセグメントする。
提案手法は,総合的なトレーニングセッションの必要性を排除し,より効率的でスケーラブルなソリューションを提供する。
COCO、PASCAL VOC、その他のデータセットの実験では、直感的な画像プロンプトを用いたフレキシブルなオープンワールドセグメンテーションに対するIPSegの有効性が示されている。
この研究は、イメージに伝達される視覚概念を通して、オープンワールドの理解のための基礎モデルに取り組む先駆者である。
関連論文リスト
- Prompt Optimizer of Text-to-Image Diffusion Models for Abstract Concept Understanding [9.787025432074978]
本稿では,Pmpt for Abstract Concepts (POAC)を導入し,テキスト・画像拡散モデルの性能向上を図る。
本稿では,事前学習した言語モデルから算出したPrompt Language Model (PLM)を提案する。
本フレームワークでは, 安定拡散モデルと最適化プロンプトによる画像のアライメントに着目し, 強化学習(RL)に基づく最適化戦略を採用している。
論文 参考訳(メタデータ) (2024-04-17T17:38:56Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Diffusion Models for Zero-Shot Open-Vocabulary Segmentation [97.25882784890456]
本稿では,ゼロショット開語彙セグメンテーションのための新しい手法を提案する。
我々は,大規模テキスト・画像拡散モデルの生成特性を利用して,支援画像の集合をサンプリングする。
提案手法は,既存の事前学習型自己教師型特徴抽出器を自然言語で抽出するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。