論文の概要: Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data
- arxiv url: http://arxiv.org/abs/2305.05208v3
- Date: Tue, 04 Feb 2025 02:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:54:52.232071
- Title: Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data
- Title(参考訳): ハードペアのリファインメントは、余分なデータのないビジュアルランゲージモデルを促進する
- Authors: Haonan Wang, Minbin Huang, Runhui Huang, Lanqing Hong, Hang Xu, Tianyang Hu, Xiaodan Liang, Zhenguo Li, Hong Cheng, Kenji Kawaguchi,
- Abstract要約: コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
- 参考スコア(独自算出の注目度): 122.282521548393
- License:
- Abstract: Contrastive Language-Image Pre-training (CLIP) has become the standard for cross-modal image-text representation learning. Improving CLIP typically requires additional data and retraining with new loss functions, but these demands raise resource and time costs, limiting practical use. In this work, we introduce HELIP, a cost-effective strategy that improves CLIP models by exploiting challenging text-image pairs within existing datasets in continuous training. This eliminates the need for additional data or extensive retraining. Moreover, HELIP integrates effortlessly into current training pipelines with minimal code modifications, allowing for quick and seamless implementation. On comprehensive benchmarks, HELIP consistently boosts existing models. In particular, within just two epochs of training, it improves zero-shot classification accuracy on ImageNet for SLIP models pre-trained on CC3M, CC12M, and YFCC15M datasets by 3.05%, 4.47%, and 10.1% , respectively. In addition, on fine-grained classification datasets, HELIP improves the zero-shot performance of CLIP and SLIP by an average of 8.4% and 18.6%, and their linear probe performance by an average of 9.5% and 3.0%. The code is publicly available at: https://github.com/haonan3/HELIP-NACCL-2025.git.
- Abstract(参考訳): コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
CLIPの改善には、通常、追加のデータと新しいロス関数による再トレーニングが必要だが、これらの要求はリソースと時間のコストを上昇させ、実用的な使用を制限する。
本研究では,CLIPモデルを改善するための費用対効果戦略であるHELIPを紹介する。
これにより、追加データや広範な再トレーニングが不要になる。
さらにHELIPは,現行のトレーニングパイプラインに最小限のコード修正を施して,迅速かつシームレスな実装を可能にする。
包括的なベンチマークでは、HELIPは既存のモデルを継続的に強化する。
特に、たった2つの期間で、CC3M、CC12M、YFCC15Mデータセットで事前訓練されたSLIPモデルのImageNetのゼロショット分類精度を、それぞれ3.05%、4.47%、10.1%向上させる。
さらに、詳細な分類データセットでは、HELIPはCLIPとSLIPのゼロショット性能を平均8.4%と18.6%改善し、線形プローブ性能は平均9.5%と3.0%向上した。
コードはhttps://github.com/haonan3/HELIP-NACCL-2025.gitで公開されている。
関連論文リスト
- Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity [11.414069074535007]
大規模な画像キャプチャデータセットを用いたコントラスト言語-画像事前学習は、目覚ましいゼロショットの一般化を実現するための表現を学ぶ。
ベストを確実に一般化するトレーニングデータの小さなサブセットは、未解決の問題のままである。
画像とキャプションの相互共分散を密に保存する部分集合は、より優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2024-03-18T21:32:58Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。