論文の概要: Context-Aware Robust Fine-Tuning
- arxiv url: http://arxiv.org/abs/2211.16175v1
- Date: Tue, 29 Nov 2022 13:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:42:04.137440
- Title: Context-Aware Robust Fine-Tuning
- Title(参考訳): コンテキスト対応ロバストファインチューニング
- Authors: Xiaofeng Mao, Yuefeng Chen, Xiaojun Jia, Rong Zhang, Hui Xue, Zhao Li
- Abstract要約: コントラスト言語-画像事前訓練(CLIP)モデルは、"[CLASS]"に属する画像を分類するゼロショット能力を有する
CLIPモデルの微調整は精度を向上させるが、下流タスクの堅牢性を犠牲にする。
本稿では,この問題を解決するためにコンテキスト対応ロバストファインチューニング(CAR-FT)を提案する。
- 参考スコア(独自算出の注目度): 23.027441849817922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-trained (CLIP) models have zero-shot ability
of classifying an image belonging to "[CLASS]" by using similarity between the
image and the prompt sentence "a [CONTEXT] of [CLASS]". Based on exhaustive
text cues in "[CONTEXT]", CLIP model is aware of different contexts, e.g.
background, style, viewpoint, and exhibits unprecedented robustness against a
wide range of distribution shifts. However, recent works find further
fine-tuning of CLIP models improves accuracy but sacrifices the robustness on
downstream tasks. We conduct an empirical investigation to show fine-tuning
will corrupt the context-aware ability of pre-trained CLIP features. To solve
this problem, we propose Context-Aware Robust Fine-tuning (CAR-FT). CAR-FT
regularizes the model during fine-tuning to capture the context information.
Specifically, we use zero-shot prompt weights to get the context distribution
contained in the image. By minimizing the Kullback-Leibler Divergence (KLD)
between context distributions induced by original/fine-tuned CLIP models,
CAR-FT makes the context-aware ability of CLIP inherited into downstream tasks,
and achieves both higher In-Distribution (ID) and Out-Of-Distribution (OOD)
accuracy. The experimental results show CAR-FT achieves superior robustness on
five OOD test datasets of ImageNet, and meanwhile brings accuracy gains on nine
downstream tasks. Additionally, CAR-FT surpasses previous Domain Generalization
(DG) methods and gets 78.5% averaged accuracy on DomainBed benchmark, building
the new state-of-the-art.
- Abstract(参考訳): コントラスト言語-画像事前訓練(CLIP)モデルは、画像と[CLASS]の[CONTEXT]のプロンプト文との類似性を利用して、”[CLASS]”に属する画像を分類するゼロショット能力を有する。
CONTEXT]の徹底的なテキストキューに基づいて、CLIPモデルは背景、スタイル、視点などの異なるコンテキストを認識し、広範囲の分散シフトに対して前例のない堅牢性を示す。
しかし、最近の研究ではCLIPモデルのさらなる微調整により精度は向上するが、下流タスクの堅牢性は犠牲になる。
訓練済みのCLIP特徴の文脈認識能力が低下することを示すための実証的研究を行った。
そこで本研究では,CAR-FT(Context-Aware Robust Fine-tuning)を提案する。
CAR-FTは、微調整中にモデルを正規化し、コンテキスト情報をキャプチャする。
具体的には、画像に含まれる文脈分布を得るためにゼロショットプロンプト重み付けを用いる。
CAR-FTは、オリジナル/ファインチューニングCLIPモデルによって誘導されるコンテキスト分布間のKullback-Leibler Divergence(KLD)を最小化することにより、CLIPのコンテキスト認識能力を下流タスクに継承し、より高いIn-Distribution(ID)とOut-Of-Distribution(OOD)の精度を達成する。
実験の結果,5つのoodテストデータセットにおいてcar-ftが優れたロバスト性を達成し,同時に9つの下流タスクにおいて精度が向上した。
さらに、CAR-FTは以前のDomain Generalization (DG) メソッドを超え、DomainBedベンチマークで78.5%の精度で新しい最先端技術を構築している。
関連論文リスト
- Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - Lipsum-FT: Robust Fine-Tuning of Zero-Shot Models Using Random Text Guidance [27.91782770050068]
大規模なコントラスト付き視覚言語事前学習モデルは、下流データでのトレーニングを必要とせず、様々な画像分類タスクの競合性能を達成するゼロショットモデルを提供する。
近年の研究では、参照データにゼロショットモデルの微調整を加えることで、下流のパフォーマンスが向上することが確認されているが、分散シフトに対するモデルの堅牢性は損なわれている。
本稿では,視覚言語事前学習モデルの言語モデリングを効果的に活用する,頑健な微調整アルゴリズムLipsum-FTを提案する。
論文 参考訳(メタデータ) (2024-04-01T02:01:33Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Domain Aligned CLIP for Few-shot Classification [3.5326413171911555]
Domain Aligned CLIP (DAC) は、メインモデルを微調整することなく、ターゲット分布上のモーダル内(イメージ)とモーダル間アライメントの両方を改善する。
画像分類におけるDACの有効性について検討し,16ショット分類の精度を約2.3%向上させるとともに,11種類の画像分類タスクのベンチマークを行った。
論文 参考訳(メタデータ) (2023-11-15T18:34:26Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。