論文の概要: CLIPood: Generalizing CLIP to Out-of-Distributions
- arxiv url: http://arxiv.org/abs/2302.00864v2
- Date: Thu, 13 Jul 2023 09:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 17:20:49.741655
- Title: CLIPood: Generalizing CLIP to Out-of-Distributions
- Title(参考訳): CLIPood: CLIPをアウト・オブ・ディストリビューションに一般化する
- Authors: Yang Shu, Xingzhuo Guo, Jialong Wu, Ximei Wang, Jianmin Wang,
Mingsheng Long
- Abstract要約: 対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 73.86353105017076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Out-of-distribution (OOD) generalization, where the model needs to handle
distribution shifts from training, is a major challenge of machine learning.
Contrastive language-image pre-training (CLIP) models have shown impressive
zero-shot ability, but the further adaptation of CLIP on downstream tasks
undesirably degrades OOD performances. This paper aims at generalizing CLIP to
out-of-distribution test data on downstream tasks. We propose CLIPood, a
fine-tuning method that can adapt CLIP models to OOD situations where both
domain shifts and open classes may occur on the unseen test data. To exploit
the semantic relations between classes from the text modality, CLIPood
introduces a new training objective, margin metric softmax (MMS), with class
adaptive margins for fine-tuning. To incorporate both pre-trained zero-shot
model and fine-tuned task-adaptive model, CLIPood leverages a new optimization
strategy, Beta moving average (BMA), to maintain a temporal ensemble weighted
by Beta distribution. Experiments on diverse datasets with different OOD
scenarios show that CLIPood consistently outperforms existing generalization
techniques.
- Abstract(参考訳): トレーニングから分散シフトを扱うモデルであるアウト・オブ・ディストリビューション(OOD)の一般化は、機械学習の大きな課題である。
コントラスト型言語イメージプリトレーニング(clip)モデルは印象的なゼロショット能力を示しているが、下流タスクへのクリップのさらなる適応はoodのパフォーマンスを望ましくないほど低下させる。
本稿では,CLIPを下流タスクにおける分散テストデータに一般化することを目的とする。
ドメインシフトとオープンクラスの両方が見えないテストデータに発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
テキストモダリティからクラス間のセマンティックな関係を利用するために、CLIPoodは新しいトレーニング目標であるマージンメトリック・ソフトマックス(MMS)を導入し、クラス適応マージンを微調整する。
事前訓練されたゼロショットモデルと微調整されたタスク適応モデルの両方を統合するために、CLIPoodは新しい最適化戦略であるベータ移動平均(BMA)を活用し、ベータ分布によって重み付けられた時間アンサンブルを維持する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - Learning from Mistakes: Self-Regularizing Hierarchical Representations
in Point Cloud Semantic Segmentation [15.353256018248103]
LiDARセマンティックセマンティックセマンティクスは、きめ細かいシーン理解を実現するために注目を集めている。
本稿では、標準モデルから派生した分類ミスタケス(LEAK)からLEArnを分離する粗大な設定を提案する。
我々のLEAKアプローチは非常に一般的で、どんなセグメンテーションアーキテクチャにもシームレスに適用できます。
論文 参考訳(メタデータ) (2023-01-26T14:52:30Z) - Adaptive Consistency Regularization for Semi-Supervised Transfer
Learning [31.66745229673066]
我々は,半教師付き学習と移動学習を共同で検討し,より実践的で競争的なパラダイムへと導いた。
事前学習した重みとラベルなしの目標サンプルの両方の価値をよりよく活用するために、適応整合正則化を導入する。
提案手法は,Pseudo Label,Mean Teacher,MixMatchといった,最先端の半教師付き学習技術より優れた適応整合性正規化を実現する。
論文 参考訳(メタデータ) (2021-03-03T05:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。