論文の概要: Breaking the Limits of Open-Weight CLIP: An Optimization Framework for Self-supervised Fine-tuning of CLIP
- arxiv url: http://arxiv.org/abs/2601.09859v1
- Date: Wed, 14 Jan 2026 20:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.894214
- Title: Breaking the Limits of Open-Weight CLIP: An Optimization Framework for Self-supervised Fine-tuning of CLIP
- Title(参考訳): オープンウェイトCLIPの限界を打破する:CLIPの自己教師型微調整のための最適化フレームワーク
- Authors: Anant Mehta, Xiyuan Wei, Xingyu Chen, Tianbao Yang,
- Abstract要約: TuneCLIPはCLIPモデルの自己教師型微調整フレームワークである。
モデルアーキテクチャとスケールをまたいだパフォーマンスを継続的に改善します。
SigLIP (ViT-B/16) のような主要なオープンウェイトモデルが増加し、ImageNetと関連するアウト・オブ・ディストリビューション・ベンチマークで最大で2.5%向上した。
- 参考スコア(独自算出の注目度): 60.025820738301434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP has become a cornerstone of multimodal representation learning, yet improving its performance typically requires a prohibitively costly process of training from scratch on billions of samples. We ask a different question: Can we improve the performance of open-weight CLIP models across various downstream tasks using only existing self-supervised datasets? Unlike supervised fine-tuning, which adapts a pretrained model to a single downstream task, our setting seeks to improve general performance across various tasks. However, as both our experiments and prior studies reveal, simply applying standard training protocols starting from an open-weight CLIP model often fails, leading to performance degradation. In this paper, we introduce TuneCLIP, a self-supervised fine-tuning framework that overcomes the performance degradation. TuneCLIP has two key components: (1) a warm-up stage of recovering optimization statistics to reduce cold-start bias, inspired by theoretical analysis, and (2) a fine-tuning stage of optimizing a new contrastive loss to mitigate the penalization on false negative pairs. Our extensive experiments show that TuneCLIP consistently improves performance across model architectures and scales. Notably, it elevates leading open-weight models like SigLIP (ViT-B/16), achieving gains of up to +2.5% on ImageNet and related out-of-distribution benchmarks, and +1.2% on the highly competitive DataComp benchmark, setting a new strong baseline for efficient post-pretraining adaptation.
- Abstract(参考訳): CLIPは、マルチモーダルな表現学習の基盤となっているが、そのパフォーマンスを改善するには、数十億のサンプルをスクラッチからトレーニングする極めてコストのかかるプロセスが必要である。
既存の自己教師型データセットのみを使用して、さまざまな下流タスクにわたるオープンウェイトCLIPモデルのパフォーマンスを改善することができるか?
事前訓練されたモデルを1つのダウンストリームタスクに適応させる教師付き微調整とは異なり、我々の設定は様々なタスクにおける一般的な性能の向上を目指している。
しかし、我々の実験と先行研究が示すように、オープンウェイトなCLIPモデルから始まる標準トレーニングプロトコルの適用は、しばしば失敗し、パフォーマンスが低下する。
本稿では,パフォーマンス劣化を克服する自己教師型微調整フレームワークであるTuneCLIPを紹介する。
TuneCLIPは,(1)理論解析にインスパイアされた冷間開始バイアスを低減するために最適化統計を回復するウォームアップ段階と,(2)偽陰対に対するペナル化を緩和するために新たな対照的な損失を最適化する微調整段階の2つの重要な要素を有している。
我々の広範な実験は、TuneCLIPがモデルアーキテクチャとスケールで一貫してパフォーマンスを改善していることを示している。
注目すべきは、SigLIP (ViT-B/16)のような主要なオープンウェイトモデルが増加し、ImageNetと関連するアウト・オブ・ディストリビューション・ベンチマークで最大2.5%、競争の激しいDataCompベンチマークで+1.2%のアップを達成し、効率的な予測後適応のための新しい強力なベースラインが設定されたことである。
関連論文リスト
- AmorLIP: Efficient Language-Image Pretraining via Amortization [52.533088120633785]
Contrastive Language-Image Pretraining (CLIP) は、様々な下流のテキストイメージタスクにまたがる強力なゼロショット性能を示している。
軽量ニューラルネットワークによるコントラスト学習に関わる高価な計算を記憶する,効率的なCLIP事前学習フレームワークであるAmorLIPを提案する。
論文 参考訳(メタデータ) (2025-05-25T05:30:37Z) - CLIP's Visual Embedding Projector is a Few-shot Cornucopia [45.93202559299953]
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs [24.991684983495542]
本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。
ヒルベルト核空間(RKHS)の再生において,CLIPのイメージとテキスト表現を両立させる問題を定式化する。
論文 参考訳(メタデータ) (2024-03-22T19:41:26Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。