論文の概要: Boosting Visual-Language Models by Exploiting Hard Samples
- arxiv url: http://arxiv.org/abs/2305.05208v2
- Date: Sun, 10 Mar 2024 14:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:25:07.060835
- Title: Boosting Visual-Language Models by Exploiting Hard Samples
- Title(参考訳): ハードサンプル活用によるビジュアル言語モデルの促進
- Authors: Haonan Wang, Minbin Huang, Runhui Huang, Lanqing Hong, Hang Xu,
Tianyang Hu, Xiaodan Liang, Zhenguo Li, Hong Cheng, Kenji Kawaguchi
- Abstract要約: HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
- 参考スコア(独自算出の注目度): 126.35125029639168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has become the standard for
learning cross-modal representations between images and text. Efforts to
improve its capabilities typically demand the collection of additional data and
retraining with new loss functions. While effective, the added requirements
limit their practical use due to the increased resource and time investments
needed. In this work, we present HELIP, a cost-effective strategy tailored to
enhance the performance of existing CLIP models without the need for training a
model from scratch or collecting additional data. Our method allows for
effortless integration with existing models' training pipelines, providing an
instant boost by training them with selected challenging text-image pairs from
their original training datasets. HELIP treats each text-image pair as a single
point in the joint vision-language space, identifying those in close proximity
as hard pairs. By incorporating the challenging data, pre-trained CLIP models
are refined using both the traditional contrastive loss and the newly
introduced hard negative margin loss, ensuring the challenging data is fully
utilized. On comprehensive benchmarks, HELIP consistently boosts existing
models to achieve leading performance. In particular, it improves the zero-shot
classification accuracy on ImageNet for SLIP models pre-trained on CC3M, CC12M
and YFCC15M datasets. The improvements are 3.05%, 4.47%, and 10.1%
respectively, achieved within two epochs of training. In addition, across
fine-grained classification datasets, HELIP improves the zero-shot performance
of pre-trained CLIP and SLIP by an average of 8.4% and 18.6%, and their linear
probe performance by an average of 9.5% and 3.0%.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)は,画像とテキスト間のクロスモーダル表現学習の標準となっている。
機能を改善するためには通常、追加データの収集と新たな損失関数の再トレーニングが必要になる。
有効ではあるが、追加の要件はリソースと時間的投資の増大のために実用的利用を制限する。
本稿では,既存のクリップモデルの性能を向上させるために,スクラッチからモデルをトレーニングしたり,追加データを集めることなく,費用対効果の高い戦略であるhelipを提案する。
本手法は既存のモデルのトレーニングパイプラインとの無作為な統合を可能にし、元のトレーニングデータセットから選択したテキストと画像のペアをトレーニングすることで、即時に強化する。
HELIPは、各テキストイメージペアをジョイントビジョン言語空間の単一点として扱い、近接しているペアをハードペアとして識別する。
課題データを組み込むことで、従来のコントラスト損失と新たに導入されたハード負マージン損失の両方を用いて事前学習したCLIPモデルを洗練し、課題データを完全に活用する。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
特に、CC3M、CC12M、YFCC15Mデータセットで事前トレーニングされたSLIPモデルのImageNetのゼロショット分類精度を改善している。
改善率は3.05%、4.47%、そして10.1%で、それぞれ2回の訓練で達成された。
さらに、細かな分類データセット全体で、helipはトレーニング済みクリップとスリップのゼロショット性能を平均8.4%と18.6%改善し、リニアプローブ性能を平均9.5%と3.0%改善した。
関連論文リスト
- Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity [11.414069074535007]
大規模な画像キャプチャデータセットを用いたコントラスト言語-画像事前学習は、目覚ましいゼロショットの一般化を実現するための表現を学ぶ。
ベストを確実に一般化するトレーニングデータの小さなサブセットは、未解決の問題のままである。
画像とキャプションの相互共分散を密に保存する部分集合は、より優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2024-03-18T21:32:58Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。