論文の概要: Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach
- arxiv url: http://arxiv.org/abs/2404.11732v1
- Date: Wed, 17 Apr 2024 20:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:30:32.956800
- Title: Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach
- Title(参考訳): 一般化Few-shotセグメンテーションのためのビジュアルプロンプティング : マルチスケールアプローチ
- Authors: Mir Rayat Imtiaz Hossain, Mennatullah Siam, Leonid Sigal, James J. Little,
- Abstract要約: 本稿では,GFSSタスクにおいて,学習した視覚的プロンプトを用いたトランスフォーマーデコーダの有効性について検討する。
我々のゴールは、限られた例を持つ新しいカテゴリだけでなく、基本カテゴリにおけるパフォーマンスを維持することにある。
本稿では,新しいプロンプトと限られた例で学習したベースプロンプトと,豊富なデータで学習したベースプロンプトとの間に一方向因果注意機構を導入する。
- 参考スコア(独自算出の注目度): 29.735863112700358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of attention-based transformer models has led to their extensive use in various tasks, due to their superior generalization and transfer properties. Recent research has demonstrated that such models, when prompted appropriately, are excellent for few-shot inference. However, such techniques are under-explored for dense prediction tasks like semantic segmentation. In this work, we examine the effectiveness of prompting a transformer-decoder with learned visual prompts for the generalized few-shot segmentation (GFSS) task. Our goal is to achieve strong performance not only on novel categories with limited examples, but also to retain performance on base categories. We propose an approach to learn visual prompts with limited examples. These learned visual prompts are used to prompt a multiscale transformer decoder to facilitate accurate dense predictions. Additionally, we introduce a unidirectional causal attention mechanism between the novel prompts, learned with limited examples, and the base prompts, learned with abundant data. This mechanism enriches the novel prompts without deteriorating the base class performance. Overall, this form of prompting helps us achieve state-of-the-art performance for GFSS on two different benchmark datasets: COCO-$20^i$ and Pascal-$5^i$, without the need for test-time optimization (or transduction). Furthermore, test-time optimization leveraging unlabelled test data can be used to improve the prompts, which we refer to as transductive prompt tuning.
- Abstract(参考訳): 注意に基づく変圧器モデルの出現は、それらの優れた一般化と伝達特性のために、様々なタスクに広く使われるようになった。
近年の研究では、このようなモデルが適切に誘導されると、数発の推論に優れていることが示されている。
しかし、このような手法はセマンティックセグメンテーションのような密集した予測タスクには未熟である。
本研究では,GFSSタスクにおいて,学習した視覚的プロンプトを用いたトランスフォーマーデコーダの有効性を検討する。
我々のゴールは、限られた例を持つ新しいカテゴリだけでなく、基本カテゴリにおけるパフォーマンスを維持することにある。
限られた例で視覚的プロンプトを学習する手法を提案する。
これらの学習された視覚的プロンプトは、マルチスケールのトランスフォーマーデコーダに正確な密度予測を促すために使用される。
さらに,新しいプロンプトと限られた例で学習したベースプロンプトと,豊富なデータで学習したベースプロンプトとの間に一方向因果注意機構を導入する。
このメカニズムは、ベースクラスのパフォーマンスを劣化させることなく、小説のプロンプトを豊かにする。
全体として、このようなプロンプトは、テスト時間最適化(あるいはトランスダクション)を必要とせずに、2つの異なるベンチマークデータセット(COCO-$20^i$とPascal-$5^i$)でGFSSの最先端のパフォーマンスを達成するのに役立ちます。
さらに,非ラベリングテストデータを利用したテスト時最適化によりプロンプトの改善が可能であり,これをトランスダクティブ・プロンプトチューニングと呼ぶ。
関連論文リスト
- Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation [15.467510304266883]
本稿では,プロンプトチューニングが弱教師付きセマンティックセグメンテーションに与える影響について検討する。
PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを提案する。
我々は、よく知られたWSSSベンチマークにおいて、シンプルで効率的なアプローチがSOTA性能を達成することを実証する。
論文 参考訳(メタデータ) (2023-06-30T19:25:18Z) - Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z) - Generalized Few-shot Semantic Segmentation [68.69434831359669]
本稿では,GFS-Seg(Generalized Few-Shot Semantic)と呼ばれる新しいベンチマークを導入する。
GFS-セグにおいて、先行する最先端の一般化が不足していることを示す最初の研究である。
本研究では,1)支援サンプルから共起前の知識を活用すること,2)各クエリ画像の内容に基づいて条件付き情報に動的に拡張することにより,性能を著しく向上するコンテキスト認識型プロトタイプ学習(CAPL)を提案する。
論文 参考訳(メタデータ) (2020-10-11T10:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。