論文の概要: Towards Generative Class Prompt Learning for Few-shot Visual Recognition
- arxiv url: http://arxiv.org/abs/2409.01835v1
- Date: Tue, 3 Sep 2024 12:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 01:36:22.882884
- Title: Towards Generative Class Prompt Learning for Few-shot Visual Recognition
- Title(参考訳): ファウショット視覚認識のための生成型クラスプロンプト学習に向けて
- Authors: Soumitri Chattopadhyay, Sanket Biswas, Emanuele Vivoli, Josep Lladós,
- Abstract要約: ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
- 参考スコア(独自算出の注目度): 5.633314115420456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although foundational vision-language models (VLMs) have proven to be very successful for various semantic discrimination tasks, they still struggle to perform faithfully for fine-grained categorization. Moreover, foundational models trained on one domain do not generalize well on a different domain without fine-tuning. We attribute these to the limitations of the VLM's semantic representations and attempt to improve their fine-grained visual awareness using generative modeling. Specifically, we propose two novel methods: Generative Class Prompt Learning (GCPL) and Contrastive Multi-class Prompt Learning (CoMPLe). Utilizing text-to-image diffusion models, GCPL significantly improves the visio-linguistic synergy in class embeddings by conditioning on few-shot exemplars with learnable class prompts. CoMPLe builds on this foundation by introducing a contrastive learning component that encourages inter-class separation during the generative optimization process. Our empirical results demonstrate that such a generative class prompt learning approach substantially outperform existing methods, offering a better alternative to few shot image recognition challenges. The source code will be made available at: https://github.com/soumitri2001/GCPL.
- Abstract(参考訳): 基本的な視覚言語モデル(VLM)は、様々な意味的識別タスクにおいて非常に成功したことが証明されているが、細かな分類のために忠実に実行するのに苦慮している。
さらに、ある領域で訓練された基礎モデルは、微調整なしでは別の領域でうまく一般化しない。
我々はこれらがVLMのセマンティック表現の限界に起因し、生成モデルを用いて細粒度の視覚的認識を改善する試みを行っている。
具体的には,ジェネレーティブ・クラス・プロンプト・ラーニング(GCPL)とコントラシティブ・マルチクラス・プロンプト・ラーニング(CoMPLe)の2つの新しい手法を提案する。
テキストと画像の拡散モデルを利用することで、GCPLは学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗効果を著しく改善する。
CoMPLeはこの基盤の上に構築されており、生成最適化プロセス中にクラス間の分離を促進する対照的な学習コンポーネントを導入している。
実験結果から、このような生成的クラスプロンプト学習アプローチが既存の手法を大幅に上回っていることが示され、ショット画像認識の課題に対するより良い代替手段が提供される。
ソースコードは、https://github.com/soumitri2001/GCPL.comで入手できる。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Diverse and Tailored Image Generation for Zero-shot Multi-label Classification [3.354528906571718]
ゼロショットのマルチラベル分類は、人間のアノテーションを使わずに、目に見えないラベルで予測を実行する能力について、かなりの注目を集めている。
一般的なアプローチでは、目に見えないものに対する不完全なプロキシとしてクラスをよく使用します。
本稿では,未確認ラベル上でのプロキシレストレーニングに適したトレーニングセットを構築するために,合成データを生成する,革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2024-04-04T01:34:36Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Fine-Grained Visual Classification via Progressive Multi-Granularity
Training of Jigsaw Patches [67.51747235117]
きめ細かい視覚分類(FGVC)は従来の分類よりもはるかに難しい。
最近の研究は主に、最も差別的な部分の発見に焦点をあてることによってこの問題に対処している。
本稿では,これらの問題に対処するための視覚的細粒度分類のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-08T19:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。