論文の概要: Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2307.03073v2
- Date: Sat, 8 Jul 2023 22:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 10:11:45.749100
- Title: Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning
- Title(参考訳): Proto-CLIP:Few-Shot Learningのためのビジョン言語プロトタイプネットワーク
- Authors: Jishnu Jaykumar P, Kamalesh Palanisamy, Yu-Wei Chao, Xinya Du, Yu
Xiang
- Abstract要約: 本稿では,CLIPのような大規模視覚言語モデルを活用することで,数ショット学習のための新しいフレームワークを提案する。
画像のプロトタイプとテキストのプロトタイプを利用して、数ショットの学習を行うProto-CLIPを提案する。
- 参考スコア(独自算出の注目度): 24.342177969408826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel framework for few-shot learning by leveraging large-scale
vision-language models such as CLIP. Motivated by the unimodal prototypical
networks for few-shot learning, we introduce PROTO-CLIP that utilizes image
prototypes and text prototypes for few-shot learning. Specifically, PROTO-CLIP
adapts the image encoder and text encoder in CLIP in a joint fashion using
few-shot examples. The two encoders are used to compute prototypes of image
classes for classification. During adaptation, we propose aligning the image
and text prototypes of corresponding classes. Such a proposed alignment is
beneficial for few-shot classification due to the contributions from both types
of prototypes. We demonstrate the effectiveness of our method by conducting
experiments on benchmark datasets for few-shot learning as well as in the real
world for robot perception.
- Abstract(参考訳): 本稿では,CLIPのような大規模視覚言語モデルを活用することで,数ショット学習のための新しいフレームワークを提案する。
初歩学習のためのユニモーダルな原型的ネットワークに動機づけられ,初歩学習に画像プロトタイプとテキストプロトタイプを利用するproto-clipを導入した。
具体的には、PROTO-CLIPは、CLIP内の画像エンコーダとテキストエンコーダを、少数の例を用いて共同で適応させる。
2つのエンコーダは、分類のための画像クラスのプロトタイプを計算するために使用される。
適応中に、対応するクラスの画像とテキストのプロトタイプの整列を提案する。
このようなアライメントは、両タイプのプロトタイプからの貢献により、少数ショットの分類に有用である。
本手法の有効性を,数発の学習のためのベンチマークデータセットと,ロボットの知覚のための実世界で実験することで実証する。
関連論文リスト
- Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-03-06T09:17:47Z) - Prompting through Prototype: A Prototype-based Prompt Learning on
Pretrained Vision-Language Models [46.02539753821322]
近年の研究では、迅速な学習は訓練データに制限がある数発の学習に特に有用であることが示されている。
上記の制約を克服するプロトタイプベースの即時学習手法を開発した。
PTPでは、画像プロトタイプは潜在空間内のある画像クラスタのセントロイドを表し、プロンプトプロトタイプは連続空間におけるソフトプロンプトとして定義される。
論文 参考訳(メタデータ) (2022-10-19T19:13:07Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。