論文の概要: Intra-Modal Proxy Learning for Zero-Shot Visual Categorization with CLIP
- arxiv url: http://arxiv.org/abs/2310.19752v1
- Date: Mon, 30 Oct 2023 17:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:51:51.636227
- Title: Intra-Modal Proxy Learning for Zero-Shot Visual Categorization with CLIP
- Title(参考訳): CLIPを用いたゼロショット視覚分類のためのモーダル内プロキシ学習
- Authors: Qi Qian, Yuanhong Xu, Juhua Hu
- Abstract要約: InMaPは、1つのGPUで1分以内にビジョンプロキシを取得でき、CLIPが事前トレーニングしたViT-L/14@336でImageNet上でのゼロショット精度を7.02%から80.21%に改善できる。
- 参考スコア(独自算出の注目度): 15.48717971754816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training methods, e.g., CLIP, demonstrate an impressive
zero-shot performance on visual categorizations with the class proxy from the
text embedding of the class name. However, the modality gap between the text
and vision space can result in a sub-optimal performance. We theoretically show
that the gap cannot be reduced sufficiently by minimizing the contrastive loss
in CLIP and the optimal proxy for vision tasks may reside only in the vision
space. Therefore, given unlabeled target vision data, we propose to learn the
vision proxy directly with the help from the text proxy for zero-shot transfer.
Moreover, according to our theoretical analysis, strategies are developed to
further refine the pseudo label obtained by the text proxy to facilitate the
intra-modal proxy learning (InMaP) for vision. Experiments on extensive
downstream tasks confirm the effectiveness and efficiency of our proposal.
Concretely, InMaP can obtain the vision proxy within one minute on a single GPU
while improving the zero-shot accuracy from $77.02\%$ to $80.21\%$ on ImageNet
with ViT-L/14@336 pre-trained by CLIP. Code is available at
\url{https://github.com/idstcv/InMaP}.
- Abstract(参考訳): 視覚言語による事前学習メソッド、例えばクリップは、クラス名のテキスト埋め込みによるクラスプロキシで、視覚的な分類において印象的なゼロショットのパフォーマンスを示している。
しかし、テキストと視覚空間の間のモダリティギャップは、準最適性能をもたらす可能性がある。
理論的には、クリップのコントラスト損失を最小化し、ビジョンタスクの最適なプロキシをビジョン空間にのみ配置することで、ギャップを十分に削減できないことを示す。
そこで,未ラベルの目標視データから,ゼロショット転送のためのテキストプロキシの助けを借りて,ビジョンプロキシを直接学習することを提案する。
さらに,本理論解析により,テキストプロキシが取得した擬似ラベルをさらに洗練し,視覚のモード内プロキシ学習(inmap)を容易にするための戦略を開発した。
広範囲な下流タスクの実験により,提案手法の有効性と有効性が確認された。
具体的には、InMaPは単一のGPU上で1分以内にビジョンプロキシを取得することができ、CLIPが事前トレーニングしたViT-L/14@336でImageNet上でのゼロショット精度を7.02\%から80.21\%に改善することができる。
コードは \url{https://github.com/idstcv/InMaP} で入手できる。
関連論文リスト
- Online Zero-Shot Classification with CLIP [9.099027915077698]
オンラインゼロショット転送のシナリオについて検討し、各画像がランダムな順序で分類され、1回だけ訪れて予測を得る。
バニラゼロショットの分類と比較すると、提案フレームワークはオンラインサービスに対する柔軟性を保っている。
オンラインゼロショット転送方式(OnZeta)は,データセット全体にアクセスすることなく,ImageNet上で78.94%の精度を実現する。
論文 参考訳(メタデータ) (2024-08-23T18:12:12Z) - Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation [82.95830628372845]
本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
論文 参考訳(メタデータ) (2024-08-01T17:48:08Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文 参考訳(メタデータ) (2022-06-22T11:55:53Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。