Fugu-MT 論文翻訳(概要): Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning

論文の概要: Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning

arxiv url: http://arxiv.org/abs/2307.03073v2
Date: Sat, 8 Jul 2023 22:56:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 10:11:45.749100
Title: Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning
Title（参考訳）: Proto-CLIP:Few-Shot Learningのためのビジョン言語プロトタイプネットワーク
Authors: Jishnu Jaykumar P, Kamalesh Palanisamy, Yu-Wei Chao, Xinya Du, Yu Xiang
Abstract要約: 本稿では,CLIPのような大規模視覚言語モデルを活用することで,数ショット学習のための新しいフレームワークを提案する。画像のプロトタイプとテキストのプロトタイプを利用して、数ショットの学習を行うProto-CLIPを提案する。
参考スコア（独自算出の注目度）: 24.342177969408826
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a novel framework for few-shot learning by leveraging large-scale vision-language models such as CLIP. Motivated by the unimodal prototypical networks for few-shot learning, we introduce PROTO-CLIP that utilizes image prototypes and text prototypes for few-shot learning. Specifically, PROTO-CLIP adapts the image encoder and text encoder in CLIP in a joint fashion using few-shot examples. The two encoders are used to compute prototypes of image classes for classification. During adaptation, we propose aligning the image and text prototypes of corresponding classes. Such a proposed alignment is beneficial for few-shot classification due to the contributions from both types of prototypes. We demonstrate the effectiveness of our method by conducting experiments on benchmark datasets for few-shot learning as well as in the real world for robot perception.
Abstract（参考訳）: 本稿では,CLIPのような大規模視覚言語モデルを活用することで,数ショット学習のための新しいフレームワークを提案する。初歩学習のためのユニモーダルな原型的ネットワークに動機づけられ,初歩学習に画像プロトタイプとテキストプロトタイプを利用するproto-clipを導入した。具体的には、PROTO-CLIPは、CLIP内の画像エンコーダとテキストエンコーダを、少数の例を用いて共同で適応させる。 2つのエンコーダは、分類のための画像クラスのプロトタイプを計算するために使用される。適応中に、対応するクラスの画像とテキストのプロトタイプの整列を提案する。このようなアライメントは、両タイプのプロトタイプからの貢献により、少数ショットの分類に有用である。本手法の有効性を,数発の学習のためのベンチマークデータセットと,ロボットの知覚のための実世界で実験することで実証する。

関連論文リスト

Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic Segmentation [75.18058114915327]
一般化されたFew-Shot Semanticnative(GFSS)は、いくつかの注釈付き例だけでセグメンテーションモデルを新しいクラスに拡張することを目的としている。プリトレーニング済みCLIPのマルチモーダルプロトタイプ上での確率的プロトタイプ校正フレームワークであるFewCLIPを提案する。 FewCLIPはGFSSとクラスインクリメンタルセッティングの両方で最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2025-06-28T18:36:22Z)
Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文参考訳（メタデータ） (2024-12-23T02:18:54Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文参考訳（メタデータ） (2023-07-04T06:54:01Z)
CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文参考訳（メタデータ） (2023-03-06T09:17:47Z)
CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文参考訳（メタデータ） (2022-12-15T18:52:08Z)
Prompting through Prototype: A Prototype-based Prompt Learning on Pretrained Vision-Language Models [46.02539753821322]
近年の研究では、迅速な学習は訓練データに制限がある数発の学習に特に有用であることが示されている。上記の制約を克服するプロトタイプベースの即時学習手法を開発した。 PTPでは、画像プロトタイプは潜在空間内のある画像クラスタのセントロイドを表し、プロンプトプロトタイプは連続空間におけるソフトプロンプトとして定義される。
論文参考訳（メタデータ） (2022-10-19T19:13:07Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (2022-09-14T05:47:02Z)
ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。 ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。 ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文参考訳（メタデータ） (2022-06-22T11:55:53Z)
Dual Prototypical Contrastive Learning for Few-shot Semantic Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-09T08:14:50Z)
Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning [48.583388368897126]
ほとんどショット学習は、これまで目に見えないイメージのカテゴリを認識するための学習である。画像クラスの名称を考慮に入れた手法を提案する。
論文参考訳（メタデータ） (2021-05-21T08:08:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。