論文の概要: Just a Few Glances: Open-Set Visual Perception with Image Prompt Paradigm
- arxiv url: http://arxiv.org/abs/2412.10719v1
- Date: Sat, 14 Dec 2024 07:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:57.901300
- Title: Just a Few Glances: Open-Set Visual Perception with Image Prompt Paradigm
- Title(参考訳): Image Prompt Paradigmによるオープンセット視覚認識
- Authors: Jinrong Zhang, Penghui Wang, Chunxiao Liu, Wei Liu, Dian Jin, Qiong Zhang, Erli Meng, Zhengnan Hu,
- Abstract要約: Open-Set Object Detection (OSOD) と Open-Set Object (OSS) は研究者の関心を集めている。
メインストリームのOSODとOSSメソッドは一般的にテキストをプロンプトとして利用し、優れたパフォーマンスを実現している。
我々は,OSODとOSS,すなわち textbfImage Prompt Paradigm に新たなプロンプトパラダイムを提案する。
このフレームワークでは、高品質な画像プロンプトが自動的に符号化され、選択され、融合され、単一のステージおよび非インタラクティブな推論が達成される。
- 参考スコア(独自算出の注目度): 22.407887601771026
- License:
- Abstract: To break through the limitations of pre-training models on fixed categories, Open-Set Object Detection (OSOD) and Open-Set Segmentation (OSS) have attracted a surge of interest from researchers. Inspired by large language models, mainstream OSOD and OSS methods generally utilize text as a prompt, achieving remarkable performance. Following SAM paradigm, some researchers use visual prompts, such as points, boxes, and masks that cover detection or segmentation targets. Despite these two prompt paradigms exhibit excellent performance, they also reveal inherent limitations. On the one hand, it is difficult to accurately describe characteristics of specialized category using textual description. On the other hand, existing visual prompt paradigms heavily rely on multi-round human interaction, which hinders them being applied to fully automated pipeline. To address the above issues, we propose a novel prompt paradigm in OSOD and OSS, that is, \textbf{Image Prompt Paradigm}. This brand new prompt paradigm enables to detect or segment specialized categories without multi-round human intervention. To achieve this goal, the proposed image prompt paradigm uses just a few image instances as prompts, and we propose a novel framework named \textbf{MI Grounding} for this new paradigm. In this framework, high-quality image prompts are automatically encoded, selected and fused, achieving the single-stage and non-interactive inference. We conduct extensive experiments on public datasets, showing that MI Grounding achieves competitive performance on OSOD and OSS benchmarks compared to text prompt paradigm methods and visual prompt paradigm methods. Moreover, MI Grounding can greatly outperform existing method on our constructed specialized ADR50K dataset.
- Abstract(参考訳): 固定カテゴリにおける事前学習モデルの限界を打破するために、Open-Set Object Detection (OSOD) と Open-Set Segmentation (OSS) が研究者の関心を集めている。
大規模な言語モデルにインスパイアされた主流のOSODとOSSメソッドは、一般的にテキストをプロンプトとして利用し、優れたパフォーマンスを実現している。
SAMパラダイムに従って、いくつかの研究者は、検出やセグメンテーションターゲットをカバーするポイント、ボックス、マスクなどの視覚的なプロンプトを使用する。
これら2つの急進的なパラダイムは優れたパフォーマンスを示すが、固有の制限も明らかにしている。
一方、テキスト記述を用いて専門分野の特徴を正確に記述することは困難である。
一方、既存の視覚的プロンプトパラダイムは、マルチラウンドのヒューマンインタラクションに大きく依存しているため、完全に自動化されたパイプラインに適用できない。
上記の課題に対処するため,OSOD とOSS,すなわち textbf{Image Prompt Paradigm} における新しいプロンプトパラダイムを提案する。
この新たなプロンプトパラダイムは、マルチラウンドの人間の介入なしに、特別なカテゴリを検出またはセグメント化することができる。
この目的を達成するために,提案した画像プロンプトパラダイムは,いくつかのイメージインスタンスをプロンプトとして使用し,新しいパラダイムのための新しいフレームワークであるtextbf{MI Grounding}を提案する。
このフレームワークでは、高品質な画像プロンプトが自動的に符号化され、選択され、融合され、単一のステージと非インタラクティブな推論が達成される。
我々は、テキストプロンプトパラダイム法やビジュアルプロンプトパラダイム法と比較して、MI GroundingがOSODおよびOSSベンチマーク上での競合性能を達成することを示す。
さらに、MIグラウンドリングは、構築したADR50Kデータセットにおいて既存の手法を大幅に上回ることができる。
関連論文リスト
- Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model [61.389233691596004]
本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。
PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-07T13:06:34Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt
for Segmenting Camouflaged Objects [32.14438610147615]
我々はGeneralizable SAM(GenSAM)と呼ばれるテスト時間ごとの適応機構を導入し、視覚的プロンプトを自動生成し最適化する。
3つのベンチマーク実験により、GenSAMは点監督アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2023-12-12T15:43:36Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Towards Open-Ended Visual Recognition with Large Language Model [27.56182473356992]
我々は,新しいLarge Language Model (LLM) ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。
OSMは、クラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。
また、人間の干渉なしにデータセット間のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-11-14T18:59:01Z) - Explicit Visual Prompting for Universal Foreground Segmentations [55.51869354956533]
我々は,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。
我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルを高速化する。
本手法は,事前学習したモデルを凍結し,いくつかのパラメータを用いてタスク固有の知識を学習する。
論文 参考訳(メタデータ) (2023-05-29T11:05:01Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。