論文の概要: Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.00097v3
- Date: Sat, 13 Jan 2024 18:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:23:55.256142
- Title: Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation
- Title(参考訳): プロンプトクラス:弱教師付きセマンティックセグメンテーションにおけるプロンプトクラス学習の力を探る
- Authors: Balamurali Murugesan, Rukhshanda Hussain, Rajarshi Bhattacharya,
Ismail Ben Ayed, and Jose Dolz
- Abstract要約: 本稿では,プロンプトチューニングが弱教師付きセマンティックセグメンテーションに与える影響について検討する。
PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを提案する。
我々は、よく知られたWSSSベンチマークにおいて、シンプルで効率的なアプローチがSOTA性能を達成することを実証する。
- 参考スコア(独自算出の注目度): 15.467510304266883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, CLIP-based approaches have exhibited remarkable performance on
generalization and few-shot learning tasks, fueled by the power of contrastive
language-vision pre-training. In particular, prompt tuning has emerged as an
effective strategy to adapt the pre-trained language-vision models to
downstream tasks by employing task-related textual tokens. Motivated by this
progress, in this work we question whether other fundamental problems, such as
weakly supervised semantic segmentation (WSSS), can benefit from prompt tuning.
Our findings reveal two interesting observations that shed light on the impact
of prompt tuning on WSSS. First, modifying only the class token of the text
prompt results in a greater impact on the Class Activation Map (CAM), compared
to arguably more complex strategies that optimize the context. And second, the
class token associated with the image ground truth does not necessarily
correspond to the category that yields the best CAM. Motivated by these
observations, we introduce a novel approach based on a PrOmpt cLass lEarning
(POLE) strategy. Through extensive experiments we demonstrate that our simple,
yet efficient approach achieves SOTA performance in a well-known WSSS
benchmark. These results highlight not only the benefits of language-vision
models in WSSS but also the potential of prompt learning for this problem. The
code is available at https://github.com/rB080/WSS_POLE.
- Abstract(参考訳): 近年、CLIPベースのアプローチは、対照的な言語ビジョン事前学習の力によって、一般化と少数ショット学習タスクにおいて顕著なパフォーマンスを示した。
特に,タスク関連テキストトークンを用いることで,事前学習した言語ビジョンモデルを下流タスクに適応するための効果的な手法として,プロンプトチューニングが登場している。
この進展に動機づけられ、本研究では、wsss(weakly supervised semantic segmentation)のような他の基本的な問題に対して、迅速なチューニングの恩恵を受けるかどうかを疑問視する。
以上の結果から,WSSSにおける即時チューニングの影響について,興味深い2つの観察結果が得られた。
まず、テキストプロンプトのクラストークンのみを変更すると、コンテキストを最適化するより複雑な戦略に比べて、クラスアクティベーションマップ(cam)に大きな影響を与える。
第二に、画像基底真理に関連するクラストークンは、必ずしも最高のCAMをもたらすカテゴリに対応しない。
これらの観測を動機として,PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを導入する。
大規模な実験を通じて、我々のシンプルで効率的なアプローチは、よく知られたWSSSベンチマークでSOTAのパフォーマンスを達成することを実証した。
これらの結果は、WSSSにおける言語ビジョンモデルの利点だけでなく、この問題に対する迅速な学習の可能性も浮き彫りにしている。
コードはhttps://github.com/rB080/WSS_POLEで公開されている。
関連論文リスト
- Sparsify-then-Classify: From Internal Neurons of Large Language Models
To Efficient Text Classifiers [4.81502049551298]
本稿では,全ての活性化状態と隠蔽状態に複数のプーリング戦略を適用することで,すべての内部表現を利用する手法を提案する。
我々の新しい軽量戦略であるSparsify-then-Classify (STC) は、まずタスク固有の機能を階層ごとに分散し、次にテキスト分類のために階層に集約する。
モデルとデータセットの包括的集合に関する実験により、STCは事前訓練されたモデルと微調整されたモデルの分類性能を一貫して改善するだけでなく、トレーニングと推論の両方においてより効率的であり、本質的に解釈可能であることが示された。
論文 参考訳(メタデータ) (2023-11-27T16:28:20Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Don't Judge a Language Model by Its Last Layer: Contrastive Learning
with Layer-Wise Attention Pooling [6.501126898523172]
近年の事前学習型言語モデル (PLM) は, 言語的特徴や文脈化文表現の学習を通じて, 多くの自然言語処理タスクにおいて大きな成功を収めている。
本稿では,各層に捕えられたレイヤワイド信号をモデルで保存し,下流タスクの消化言語的特徴を学習する,アテンションベースのプーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-13T13:09:49Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。