論文の概要: Boosting Visual-Language Models by Exploiting Hard Samples
- arxiv url: http://arxiv.org/abs/2305.05208v1
- Date: Tue, 9 May 2023 07:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:47:59.880503
- Title: Boosting Visual-Language Models by Exploiting Hard Samples
- Title(参考訳): ハードサンプル活用によるビジュアル言語モデルの促進
- Authors: Haonan Wang, Minbin Huang, Runhui Huang, Lanqing Hong, Hang Xu,
Tianyang Hu, Xiaodan Liang, Zhenguo Li
- Abstract要約: HELIPは、訓練されたCLIPモデルの性能を向上させるための低コストな戦略である。
包括的なゼロショットと検索のベンチマークでは、HELIPは既存のモデルを継続的に強化し、主要なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 99.43535817212059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision and language models, such as Contrastive Language-Image
Pre-training (CLIP), are rapidly becoming the industry norm for matching images
and texts. In order to improve its zero-shot recognition performance, current
research either adds additional web-crawled image-text pairs or designs new
training losses. However, the additional costs associated with training from
scratch and data collection substantially hinder their deployment. In this
paper, we present HELIP, a low-cost strategy for boosting the performance of
well-trained CLIP models by finetuning them with hard samples over original
training data. Mixing hard examples into each batch, the well-trained CLIP
model is then fine-tuned using the conventional contrastive alignment objective
and a margin loss to distinguish between normal and hard negative data. HELIP
is deployed in a plug-and-play fashion to existing models. On a comprehensive
zero-shot and retrieval benchmark, without training the model from scratch or
utilizing additional data, HELIP consistently boosts existing models to achieve
leading performance. In particular, HELIP boosts ImageNet zero-shot accuracy of
SLIP by 3.05 and 4.47 when pretrained on CC3M and CC12M respectively. In
addition, a systematic evaluation of zero-shot and linear probing experiments
across fine-grained classification datasets demonstrates a consistent
performance improvement and validates the efficacy of HELIP . When pretraining
on CC3M, HELIP boosts zero-shot performance of CLIP and SLIP by 8.4\% and
18.6\% on average respectively, and linear probe performance by 9.5\% and 3.0\%
on average respectively.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP)のような大きなビジョンと言語モデルは、画像とテキストをマッチングする業界標準として急速に普及している。
ゼロショット認識性能を改善するため、現在の研究はウェブに拡大した画像テキストペアを追加するか、新たなトレーニング損失を設計する。
しかしながら、スクラッチからのトレーニングとデータ収集に関連する追加コストは、そのデプロイメントを著しく妨げます。
本稿では,オリジナルトレーニングデータに対してハードサンプルを微調整することにより,訓練されたクリップモデルの性能を向上させるための低コスト戦略であるhelipを提案する。
各バッチにハードサンプルを混合すると、よく訓練されたCLIPモデルは、従来のコントラストアライメント目標とマージン損失を用いて微調整され、正規データとハードネガティブデータを区別する。
helipは既存のモデルにプラグアンドプレイ方式でデプロイされる。
包括的なゼロショットと検索のベンチマークでは、モデルをスクラッチからトレーニングしたり、追加データを利用することなく、HELIPは一貫して既存のモデルを強化し、パフォーマンスを向上する。
特にHELIPは、それぞれCC3MとCC12Mで事前訓練されたときに、イメージネットによるSLIPのゼロショット精度を3.05と447に向上させる。
さらに,細粒度分類データセットを用いたゼロショットおよび線形探索実験の系統的評価により,一貫した性能向上を示し,HELIPの有効性を検証した。
CC3Mでの事前トレーニングでは、平均でCLIPとSLIPのゼロショット性能を8.4\%、平均で18.6\%、線形プローブ性能を9.5\%、平均で3.0\%向上させる。
関連論文リスト
- Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training [17.158498267947877]
ランタイム性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPを紹介する。
MobileCLIPは、画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を使用して、効率的なモデルの精度を向上させる。
我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。
論文 参考訳(メタデータ) (2023-11-28T18:55:42Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - No Data Augmentation? Alternative Regularizations for Effective Training
on Small Datasets [0.0]
我々は、小さな画像分類データセットにおける教師あり学習の限界を推し進めるために、代替正規化戦略について研究する。
特に,モデルパラメータのノルムを通した最適学習率と重み減衰対の選択に非依存を用いる。
テスト精度は66.5%に達し、最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2023-09-04T16:13:59Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。