論文の概要: SuS-X: Training-Free Name-Only Transfer of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2211.16198v4
- Date: Tue, 15 Aug 2023 13:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 17:25:33.811184
- Title: SuS-X: Training-Free Name-Only Transfer of Vision-Language Models
- Title(参考訳): SuS-X: 視覚言語モデルの訓練自由名専用転送
- Authors: Vishaal Udandarao, Ankush Gupta, Samuel Albanie
- Abstract要約: Contrastive Language-Image Pre-Training (CLIP) は、大規模な視覚言語モデルを訓練するための単純かつ効果的な方法として登場した。
CLIPモデル全体を微調整することは、リソース集約的で不安定である。
本稿では,高精細・高コストなラベル付きデータを必要としないSuS-Xを提案する。
- 参考スコア(独自算出の注目度): 28.06403983530132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has emerged as a simple yet
effective way to train large-scale vision-language models. CLIP demonstrates
impressive zero-shot classification and retrieval on diverse downstream tasks.
However, to leverage its full potential, fine-tuning still appears to be
necessary. Fine-tuning the entire CLIP model can be resource-intensive and
unstable. Moreover, recent methods that aim to circumvent this need for
fine-tuning still require access to images from the target distribution. In
this paper, we pursue a different approach and explore the regime of
training-free "name-only transfer" in which the only knowledge we possess about
the downstream task comprises the names of downstream target categories. We
propose a novel method, SuS-X, consisting of two key building blocks -- SuS and
TIP-X, that requires neither intensive fine-tuning nor costly labelled data.
SuS-X achieves state-of-the-art zero-shot classification results on 19
benchmark datasets. We further show the utility of TIP-X in the training-free
few-shot setting, where we again achieve state-of-the-art results over strong
training-free baselines. Code is available at
https://github.com/vishaal27/SuS-X.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は、大規模な視覚言語モデルを訓練するための単純かつ効果的な方法として登場した。
CLIPは、さまざまな下流タスクに対する印象的なゼロショットの分類と検索を示す。
しかし、その潜在能力を最大限活用するためには、微調整が必要であるようだ。
クリップモデル全体の微調整はリソース集約的で不安定です。
さらに、このような微調整を回避しようとする最近の手法では、ターゲット分布からの画像にアクセスする必要がある。
本稿では,異なるアプローチを追求し,ダウンストリームタスクに関する知識が下流のターゲットカテゴリの名前のみを含む,トレーニングフリーな"名前のみの転送"の仕組みを検討する。
本稿では,SuSとTIP-Xという2つの重要なビルディングブロックで構成されるSuS-Xを提案する。
SuS-Xは19のベンチマークデータセットで最先端のゼロショット分類結果を達成する。
また,TIP-Xをトレーニング不要な複数ショット設定で有効性を示すとともに,トレーニング不要なベースラインの強化に対して,最先端の結果が得られた。
コードはhttps://github.com/vishaal27/SuS-Xで入手できる。
関連論文リスト
- GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs [27.169892145194638]
GraphCLIPは、強力なクロスドメインゼロ/フェーショット転送可能性を持つグラフ基盤モデルを学習するためのフレームワークである。
LLMの助けを借りて、大規模グラフ-土木ペアデータを生成し、キュレートする。
数ショットの学習では,事前学習目標に沿った新しいグラフプロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T09:40:52Z) - Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - SGL-PT: A Strong Graph Learner with Graph Prompt Tuning [36.650472660276]
そこで我々は,SGL-PTという新しいフレームワークを提案し,学習戦略であるPre-train, Prompt, Predict'に従う。
具体的には、生成的かつコントラスト的な自己教師付きグラフ学習の相補的メリットを得られるSGLと呼ばれる、強力で普遍的な事前学習タスクを提起する。
また, グラフ分類タスクを目標として, 事前学習と微調整を統一し, 従来のテキストタスクと同様の形式で下流タスクを再構成する, 新たな動詞フリープロンプト関数を設計する。
論文 参考訳(メタデータ) (2023-02-24T04:31:18Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。