論文の概要: Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2307.03073v3
- Date: Sun, 14 Jul 2024 16:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 05:08:47.325364
- Title: Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning
- Title(参考訳): Proto-CLIP:Few-Shot Learningのためのビジョンランゲージ型プロトタイプネットワーク
- Authors: Jishnu Jaykumar P, Kamalesh Palanisamy, Yu-Wei Chao, Xinya Du, Yu Xiang,
- Abstract要約: Proto-CLIPは、CLIPのような大規模ビジョン言語モデルに基づく、数発の学習のためのフレームワークである。
Proto-CLIPは、CLIPからのイメージとテキストエンコーダの埋め込みを、いくつかの例を使って共同で調整する。
Proto-CLIPにはトレーニング不要と微調整の2種類がある。
- 参考スコア(独自算出の注目度): 16.613744920566436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel framework for few-shot learning by leveraging large-scale vision-language models such as CLIP. Motivated by unimodal prototypical networks for few-shot learning, we introduce Proto-CLIP which utilizes image prototypes and text prototypes for few-shot learning. Specifically, Proto-CLIP adapts the image and text encoder embeddings from CLIP in a joint fashion using few-shot examples. The embeddings from the two encoders are used to compute the respective prototypes of image classes for classification. During adaptation, we propose aligning the image and text prototypes of the corresponding classes. Such alignment is beneficial for few-shot classification due to the reinforced contributions from both types of prototypes. Proto-CLIP has both training-free and fine-tuned variants. We demonstrate the effectiveness of our method by conducting experiments on benchmark datasets for few-shot learning, as well as in the real world for robot perception. The project page is available at https://irvlutd.github.io/Proto-CLIP
- Abstract(参考訳): 本稿では,CLIPのような大規模視覚言語モデルを活用することで,数ショット学習のための新しいフレームワークを提案する。
画像のプロトタイプとテキストのプロトタイプを併用したプロトCLIPを導入する。
具体的には、Proto-CLIPは、CLIPからのイメージとテキストエンコーダの埋め込みを、いくつかの例を使って共同で適応する。
2つのエンコーダからの埋め込みは、分類のための各画像クラスのプロトタイプを計算するために使用される。
適応中、対応するクラスの画像とテキストのプロトタイプの整合化を提案する。
このようなアライメントは、両方のプロトタイプの強化された貢献により、数発の分類に有用である。
Proto-CLIPにはトレーニング不要と微調整の2種類がある。
本手法の有効性を,数ショットの学習のためのベンチマークデータセットと,ロボットの知覚のための実世界で実験することで実証する。
プロジェクトページはhttps://irvlutd.github.io/Proto-CLIPで公開されている。
関連論文リスト
- MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-03-06T09:17:47Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z) - Prompting through Prototype: A Prototype-based Prompt Learning on
Pretrained Vision-Language Models [46.02539753821322]
近年の研究では、迅速な学習は訓練データに制限がある数発の学習に特に有用であることが示されている。
上記の制約を克服するプロトタイプベースの即時学習手法を開発した。
PTPでは、画像プロトタイプは潜在空間内のある画像クラスタのセントロイドを表し、プロンプトプロトタイプは連続空間におけるソフトプロンプトとして定義される。
論文 参考訳(メタデータ) (2022-10-19T19:13:07Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文 参考訳(メタデータ) (2022-06-22T11:55:53Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning [48.583388368897126]
ほとんどショット学習は、これまで目に見えないイメージのカテゴリを認識するための学習である。
画像クラスの名称を考慮に入れた手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T08:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。