論文の概要: Fine-Grained Visual Prompting
- arxiv url: http://arxiv.org/abs/2306.04356v2
- Date: Tue, 12 Dec 2023 06:36:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 20:20:01.427039
- Title: Fine-Grained Visual Prompting
- Title(参考訳): きめ細かい視覚プロンプト
- Authors: Lingfeng Yang, Yueze Wang, Xiang Li, Xinlong Wang, Jian Yang
- Abstract要約: Fine-Grained Visual Prompting (FGVP) は参照表現のゼロショット理解において優れた性能を示す。
RefCOCO+ testAサブセットで最大12.5%改善され、平均マージンが3.0%から4.6%向上した。
- 参考スコア(独自算出の注目度): 35.032567257651515
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Models (VLMs), such as CLIP, have demonstrated impressive
zero-shot transfer capabilities in image-level visual perception. However,
these models have shown limited performance in instance-level tasks that demand
precise localization and recognition. Previous works have suggested that
incorporating visual prompts, such as colorful boxes or circles, can improve
the ability of models to recognize objects of interest. Nonetheless, compared
to language prompting, visual prompting designs are rarely explored. Existing
approaches, which employ coarse visual cues such as colorful boxes or circles,
often result in sub-optimal performance due to the inclusion of irrelevant and
noisy pixels. In this paper, we carefully study the visual prompting designs by
exploring more fine-grained markings, such as segmentation masks and their
variations. In addition, we introduce a new zero-shot framework that leverages
pixel-level annotations acquired from a generalist segmentation model for
fine-grained visual prompting. Consequently, our investigation reveals that a
straightforward application of blur outside the target mask, referred to as the
Blur Reverse Mask, exhibits exceptional effectiveness. This proposed prompting
strategy leverages the precise mask annotations to reduce focus on weakly
related regions while retaining spatial coherence between the target and the
surrounding background. Our Fine-Grained Visual Prompting (FGVP) demonstrates
superior performance in zero-shot comprehension of referring expressions on the
RefCOCO, RefCOCO+, and RefCOCOg benchmarks. It outperforms prior methods by an
average margin of 3.0% to 4.6%, with a maximum improvement of 12.5% on the
RefCOCO+ testA subset. Code is available at https://github.com/ylingfeng/FGVP.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、画像レベルの視覚知覚において、印象的なゼロショット転送機能を示している。
しかしながら、これらのモデルでは、正確なローカライゼーションと認識を必要とするインスタンスレベルのタスクのパフォーマンスが制限されている。
以前の研究は、カラフルな箱や円のような視覚的なプロンプトを組み込むことで、モデルが関心のあるオブジェクトを認識する能力を向上させることを示唆している。
それでも、言語プロンプトに比べて視覚的なプロンプトデザインは滅多に研究されていない。
色とりどりの箱や円のような粗い視覚的なヒントを用いる既存のアプローチは、無関係でノイズの多いピクセルを含むため、しばしば最適以下のパフォーマンスをもたらす。
本稿では,よりきめ細かなマーキング,例えばセグメンテーションマスクとそのバリエーションを探索することにより,視覚的プロンプトデザインを慎重に研究する。
さらに,汎用セグメンテーションモデルから取得したピクセルレベルのアノテーションを活用し,詳細な視覚的プロンプトを行う,ゼロショットフレームワークも導入する。
その結果,Blur Reverse Maskと呼ばれる標的マスクの外側のぼやけの直接的応用が極めて有効であることが判明した。
提案手法は, マスクアノテーションの精度を利用して, ターゲットと周辺背景との空間的コヒーレンスを維持しつつ, 弱関連領域へのフォーカスを低減する。
我々のFGVPは、RefCOCO、RefCOCO+、RefCOCOgベンチマークにおける参照表現のゼロショット理解において優れた性能を示す。
従来のメソッドを3.0%から4.6%のマージンで上回り、最大で12.5%のrefcoco+ testaサブセットで改善する。
コードはhttps://github.com/ylingfeng/FGVPで入手できる。
関連論文リスト
- SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:02:25Z) - ScanFormer: Referring Expression Comprehension by Iteratively Scanning [11.95137121280909]
Referring Expression (REC) は、画像中の自由形式の自然言語記述によって指定された対象オブジェクトをローカライズすることを目的としている。
最先端の手法は印象的な性能を達成する一方で、言語クエリとは無関係な冗長な視覚領域を含む画像の濃密な認識を行う。
モデルの効率を改善するために、言語的に無関係な冗長な視覚領域を排除できるだろうか?
論文 参考訳(メタデータ) (2024-06-26T03:56:03Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。