論文の概要: Rethinking Prompting Strategies for Multi-Label Recognition with Partial Annotations
- arxiv url: http://arxiv.org/abs/2409.08381v1
- Date: Thu, 12 Sep 2024 20:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 18:27:26.926224
- Title: Rethinking Prompting Strategies for Multi-Label Recognition with Partial Annotations
- Title(参考訳): 部分アノテーションを用いた複数ラベル認識のためのプロンプト戦略の再考
- Authors: Samyak Rawlekar, Shubhang Bhatnagar, Narendra Ahuja,
- Abstract要約: マルチラベル認識(MLR)における肯定的・否定的学習の効果について検討する。
我々はPositiveCoOpとNegativeCoOpを導入し、1つのプロンプトだけがVLMガイダンスで学習され、もう1つは埋め込みベクトルに置き換えられる。
我々は、負のプロンプトがMLR性能を低下させ、正のプロンプトのみを学習し、学習された負の埋め込みと組み合わせることで、二重のプロンプト学習アプローチより優れていることを観察した。
- 参考スコア(独自算出の注目度): 7.7149881834358345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) like CLIP have been adapted for Multi-Label Recognition (MLR) with partial annotations by leveraging prompt-learning, where positive and negative prompts are learned for each class to associate their embeddings with class presence or absence in the shared vision-text feature space. While this approach improves MLR performance by relying on VLM priors, we hypothesize that learning negative prompts may be suboptimal, as the datasets used to train VLMs lack image-caption pairs explicitly focusing on class absence. To analyze the impact of positive and negative prompt learning on MLR, we introduce PositiveCoOp and NegativeCoOp, where only one prompt is learned with VLM guidance while the other is replaced by an embedding vector learned directly in the shared feature space without relying on the text encoder. Through empirical analysis, we observe that negative prompts degrade MLR performance, and learning only positive prompts, combined with learned negative embeddings (PositiveCoOp), outperforms dual prompt learning approaches. Moreover, we quantify the performance benefits that prompt-learning offers over a simple vision-features-only baseline, observing that the baseline displays strong performance comparable to dual prompt learning approach (DualCoOp), when the proportion of missing labels is low, while requiring half the training compute and 16 times fewer parameters
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、プロンプト学習を活用して部分アノテーションでマルチラベル認識(MLR)に適応し、各クラスに対して、クラスの存在や共有視覚テキストの特徴空間の欠如を関連付けるために、正と負のプロンプトを学習している。
提案手法は,VLM の先行性に依存することで MLR 性能を向上させるが,VLM の学習に使用されるデータセットには,クラス不在に特化してイメージキャプチャペアが欠如しているため,学習の負のプロンプトが最適以下である可能性があるという仮説を立てる。
MLRにおける正と負のプロンプト学習の影響を分析するために、テキストエンコーダを使わずに、VLM誘導で1つのプロンプトのみを学習し、もう1つは共有特徴空間で直接学習された埋め込みベクトルに置き換える、PositiveCoOpとNegativeCoOpを導入する。
経験的分析により、負のプロンプトはMLR性能を低下させ、学習は正のプロンプトのみを減少させ、学習された負の埋め込み(PositiveCoOp)と組み合わせることで、二重のプロンプト学習アプローチよりも優れることがわかった。
さらに、単純な視覚機能のみのベースラインに対してプロンプト学習が提供するパフォーマンスの利点を定量化し、不足ラベルの割合が低い場合、ベースラインがデュアルプロンプト学習アプローチ(DualCoOp)に匹敵する強力なパフォーマンスを示し、トレーニング計算の半分と16倍のパラメータを必要とする。
関連論文リスト
- Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Robust Representation Learning by Clustering with Bisimulation Metrics
for Visual Reinforcement Learning with Distractions [9.088460902782547]
Bisimulation Metrics (CBM) によるクラスタリングは、潜在空間における視覚的観察をグループ化することで、堅牢な表現を学習する。
CBMは,(1)実測距離を学習プロトタイプと測定することで観測をグループ化すること,(2)現在のクラスタ割り当てに従ってプロトタイプの集合を学習すること,の2つのステップを交互に行う。
実験により、CBMは一般的なビジュアルRLアルゴリズムのサンプル効率を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-02-12T13:27:34Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited
Annotations [61.41339201200135]
本稿では,部分ラベル MLR とゼロショット MLR の統一フレームワークとして,Dual Context Optimization (DualCoOp) を提案する。
DualCoOpは、事前訓練された視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドしか導入しないため、マルチラベル認識タスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-06-20T02:36:54Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。