論文の概要: Boosting Visual-Language Models by Exploiting Hard Samples
- arxiv url: http://arxiv.org/abs/2305.05208v1
- Date: Tue, 9 May 2023 07:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:47:59.880503
- Title: Boosting Visual-Language Models by Exploiting Hard Samples
- Title(参考訳): ハードサンプル活用によるビジュアル言語モデルの促進
- Authors: Haonan Wang, Minbin Huang, Runhui Huang, Lanqing Hong, Hang Xu,
Tianyang Hu, Xiaodan Liang, Zhenguo Li
- Abstract要約: HELIPは、訓練されたCLIPモデルの性能を向上させるための低コストな戦略である。
包括的なゼロショットと検索のベンチマークでは、HELIPは既存のモデルを継続的に強化し、主要なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 99.43535817212059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision and language models, such as Contrastive Language-Image
Pre-training (CLIP), are rapidly becoming the industry norm for matching images
and texts. In order to improve its zero-shot recognition performance, current
research either adds additional web-crawled image-text pairs or designs new
training losses. However, the additional costs associated with training from
scratch and data collection substantially hinder their deployment. In this
paper, we present HELIP, a low-cost strategy for boosting the performance of
well-trained CLIP models by finetuning them with hard samples over original
training data. Mixing hard examples into each batch, the well-trained CLIP
model is then fine-tuned using the conventional contrastive alignment objective
and a margin loss to distinguish between normal and hard negative data. HELIP
is deployed in a plug-and-play fashion to existing models. On a comprehensive
zero-shot and retrieval benchmark, without training the model from scratch or
utilizing additional data, HELIP consistently boosts existing models to achieve
leading performance. In particular, HELIP boosts ImageNet zero-shot accuracy of
SLIP by 3.05 and 4.47 when pretrained on CC3M and CC12M respectively. In
addition, a systematic evaluation of zero-shot and linear probing experiments
across fine-grained classification datasets demonstrates a consistent
performance improvement and validates the efficacy of HELIP . When pretraining
on CC3M, HELIP boosts zero-shot performance of CLIP and SLIP by 8.4\% and
18.6\% on average respectively, and linear probe performance by 9.5\% and 3.0\%
on average respectively.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP)のような大きなビジョンと言語モデルは、画像とテキストをマッチングする業界標準として急速に普及している。
ゼロショット認識性能を改善するため、現在の研究はウェブに拡大した画像テキストペアを追加するか、新たなトレーニング損失を設計する。
しかしながら、スクラッチからのトレーニングとデータ収集に関連する追加コストは、そのデプロイメントを著しく妨げます。
本稿では,オリジナルトレーニングデータに対してハードサンプルを微調整することにより,訓練されたクリップモデルの性能を向上させるための低コスト戦略であるhelipを提案する。
各バッチにハードサンプルを混合すると、よく訓練されたCLIPモデルは、従来のコントラストアライメント目標とマージン損失を用いて微調整され、正規データとハードネガティブデータを区別する。
helipは既存のモデルにプラグアンドプレイ方式でデプロイされる。
包括的なゼロショットと検索のベンチマークでは、モデルをスクラッチからトレーニングしたり、追加データを利用することなく、HELIPは一貫して既存のモデルを強化し、パフォーマンスを向上する。
特にHELIPは、それぞれCC3MとCC12Mで事前訓練されたときに、イメージネットによるSLIPのゼロショット精度を3.05と447に向上させる。
さらに,細粒度分類データセットを用いたゼロショットおよび線形探索実験の系統的評価により,一貫した性能向上を示し,HELIPの有効性を検証した。
CC3Mでの事前トレーニングでは、平均でCLIPとSLIPのゼロショット性能を8.4\%、平均で18.6\%、線形プローブ性能を9.5\%、平均で3.0\%向上させる。
関連論文リスト
- Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity [11.414069074535007]
大規模な画像キャプチャデータセットを用いたコントラスト言語-画像事前学習は、目覚ましいゼロショットの一般化を実現するための表現を学ぶ。
ベストを確実に一般化するトレーニングデータの小さなサブセットは、未解決の問題のままである。
画像とキャプションの相互共分散を密に保存する部分集合は、より優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2024-03-18T21:32:58Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。