論文の概要: Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.00097v3
- Date: Sat, 13 Jan 2024 18:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:23:55.256142
- Title: Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation
- Title(参考訳): プロンプトクラス:弱教師付きセマンティックセグメンテーションにおけるプロンプトクラス学習の力を探る
- Authors: Balamurali Murugesan, Rukhshanda Hussain, Rajarshi Bhattacharya,
Ismail Ben Ayed, and Jose Dolz
- Abstract要約: 本稿では,プロンプトチューニングが弱教師付きセマンティックセグメンテーションに与える影響について検討する。
PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを提案する。
我々は、よく知られたWSSSベンチマークにおいて、シンプルで効率的なアプローチがSOTA性能を達成することを実証する。
- 参考スコア(独自算出の注目度): 15.467510304266883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, CLIP-based approaches have exhibited remarkable performance on
generalization and few-shot learning tasks, fueled by the power of contrastive
language-vision pre-training. In particular, prompt tuning has emerged as an
effective strategy to adapt the pre-trained language-vision models to
downstream tasks by employing task-related textual tokens. Motivated by this
progress, in this work we question whether other fundamental problems, such as
weakly supervised semantic segmentation (WSSS), can benefit from prompt tuning.
Our findings reveal two interesting observations that shed light on the impact
of prompt tuning on WSSS. First, modifying only the class token of the text
prompt results in a greater impact on the Class Activation Map (CAM), compared
to arguably more complex strategies that optimize the context. And second, the
class token associated with the image ground truth does not necessarily
correspond to the category that yields the best CAM. Motivated by these
observations, we introduce a novel approach based on a PrOmpt cLass lEarning
(POLE) strategy. Through extensive experiments we demonstrate that our simple,
yet efficient approach achieves SOTA performance in a well-known WSSS
benchmark. These results highlight not only the benefits of language-vision
models in WSSS but also the potential of prompt learning for this problem. The
code is available at https://github.com/rB080/WSS_POLE.
- Abstract(参考訳): 近年、CLIPベースのアプローチは、対照的な言語ビジョン事前学習の力によって、一般化と少数ショット学習タスクにおいて顕著なパフォーマンスを示した。
特に,タスク関連テキストトークンを用いることで,事前学習した言語ビジョンモデルを下流タスクに適応するための効果的な手法として,プロンプトチューニングが登場している。
この進展に動機づけられ、本研究では、wsss(weakly supervised semantic segmentation)のような他の基本的な問題に対して、迅速なチューニングの恩恵を受けるかどうかを疑問視する。
以上の結果から,WSSSにおける即時チューニングの影響について,興味深い2つの観察結果が得られた。
まず、テキストプロンプトのクラストークンのみを変更すると、コンテキストを最適化するより複雑な戦略に比べて、クラスアクティベーションマップ(cam)に大きな影響を与える。
第二に、画像基底真理に関連するクラストークンは、必ずしも最高のCAMをもたらすカテゴリに対応しない。
これらの観測を動機として,PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを導入する。
大規模な実験を通じて、我々のシンプルで効率的なアプローチは、よく知られたWSSSベンチマークでSOTAのパフォーマンスを達成することを実証した。
これらの結果は、WSSSにおける言語ビジョンモデルの利点だけでなく、この問題に対する迅速な学習の可能性も浮き彫りにしている。
コードはhttps://github.com/rB080/WSS_POLEで公開されている。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - AAPL: Adding Attributes to Prompt Learning for Vision-Language Models [6.32186874112557]
本稿では,学習可能なプロンプトのバイアスを誘発する際,高次クラス情報から低次視覚強調特徴を分離するための逆トークン埋め込みを提案する。
我々は11のデータセットに対して実験を行い、AAPLは、いくつかのショット学習、ゼロショット学習、クロスデータセット、ドメイン一般化タスクにおいて、既存の手法と比較して好成績を示した。
論文 参考訳(メタデータ) (2024-04-25T17:51:10Z) - Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。