論文の概要: Improving CLIP Robustness with Knowledge Distillation and Self-Training
- arxiv url: http://arxiv.org/abs/2309.10361v1
- Date: Tue, 19 Sep 2023 06:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 15:52:44.806563
- Title: Improving CLIP Robustness with Knowledge Distillation and Self-Training
- Title(参考訳): 知識蒸留と自己学習によるCLIPロバストネスの改善
- Authors: Clement Laroudie, Andrei Bursuc, Mai Lan Ha, Gianni Franchi
- Abstract要約: 本稿では,教師なし学習におけるマルチモーダルコンピュータビジョンモデルCLIP(Contrastive Language- Image Pretraining)の堅牢性について検討する。
単純な線形探索層を利用することで、現実のシナリオでよく遭遇する様々な不確実性と課題に耐えられるモデルの性能を向上させることを目指している。
- 参考スコア(独自算出の注目度): 12.17758703735395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines the robustness of a multi-modal computer vision model,
CLIP (Contrastive Language-Image Pretraining), in the context of unsupervised
learning. The main objective is twofold: first, to evaluate the robustness of
CLIP, and second, to explore strategies for augmenting its robustness. To
achieve this, we introduce a novel approach named LP-CLIP. This technique
involves the distillation of CLIP features through the incorporation of a
linear probing layer positioned atop its encoding structure. This newly added
layer is trained utilizing pseudo-labels produced by CLIP, coupled with a
self-training strategy. The LP-CLIP technique offers a promising approach to
enhance the robustness of CLIP without the need for annotations. By leveraging
a simple linear probing layer, we aim to improve the model's ability to
withstand various uncertainties and challenges commonly encountered in
real-world scenarios. Importantly, our approach does not rely on annotated
data, which makes it particularly valuable in situations where labeled data
might be scarce or costly to obtain. Our proposed approach increases the
robustness of CLIP with SOTA results compared to supervised technique on
various datasets.
- Abstract(参考訳): 本稿では,教師なし学習におけるマルチモーダルコンピュータビジョンモデルCLIP(Contrastive Language- Image Pretraining)の堅牢性について検討する。
第一に、CLIPの堅牢性を評価することと、第二に、その堅牢性を高めるための戦略を検討することだ。
そこで我々はLP-CLIPという新しい手法を提案する。
この技術は、CLIPの特徴の蒸留を、そのコード構造上に位置する線形なプローブ層を組み込むことによって行う。
この新たに追加されたレイヤは、CLIPが作成した擬似ラベルと、自己学習戦略を併用してトレーニングされる。
LP-CLIP技術は、アノテーションを必要とせずにCLIPの堅牢性を高めるための有望なアプローチを提供する。
単純な線形プローブ層を利用することで、実世界のシナリオでよく発生する様々な不確実性と課題に耐えるモデルの能力を向上させることを目指している。
重要なことに、当社のアプローチは注釈付きデータに依存していないため、ラベル付きデータが不足したり、取得するのにコストがかかるような状況では特に価値がある。
提案手法は,様々なデータセットの教師付き手法と比較して,SOTAによるCLIPの堅牢性を向上させる。
関連論文リスト
- Toward a Holistic Evaluation of Robustness in CLIP Models [11.148206692373144]
対照的な言語-画像事前学習(CLIP)モデルは、ゼロショット分類において有意な可能性を示している。
この作業は、いくつかの新しい視点を導入することで、より包括的なCLIPの評価を提供することを目的としている。
それぞれの側面において、モデルアーキテクチャ、トレーニング配布、トレーニングセットサイズ、微調整、コントラスト損失、テストタイムプロンプトの6つの要因がCLIPモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2024-10-02T13:26:17Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Prototypical Contrastive Learning-based CLIP Fine-tuning for Object
Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。
私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。
提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文 参考訳(メタデータ) (2023-10-26T08:12:53Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - Don't Stop Learning: Towards Continual Learning for the CLIP Model [21.212839450030838]
Contrastive Language-Image Pre-Training(CLIP)モデルは、最近提案された大規模プレトレインモデルである。
本研究は,CLIPモデルの連続学習問題に関する体系的研究を行う。
筆者らは,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T13:03:14Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。