論文の概要: CLIPood: Generalizing CLIP to Out-of-Distributions
- arxiv url: http://arxiv.org/abs/2302.00864v1
- Date: Thu, 2 Feb 2023 04:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:22:30.694331
- Title: CLIPood: Generalizing CLIP to Out-of-Distributions
- Title(参考訳): CLIPood: CLIPをアウト・オブ・ディストリビューションに一般化する
- Authors: Yang Shu, Xingzhuo Guo, Jialong Wu, Ximei Wang, Jianmin Wang,
Mingsheng Long
- Abstract要約: アウト・オブ・ディストリビューション(OOD)の一般化は機械学習の大きな課題である。
我々は、CLIPモデルをすべてのOOD状況に適応できる簡単な微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 73.86353105017076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Out-of-distribution (OOD) generalization, where the model needs to handle
distribution shifts from training, is a major challenge of machine learning.
Recently, contrastive language-image pre-training (CLIP) models have shown
impressive zero-shot ability, revealing a promising path toward OOD
generalization. However, to boost upon zero-shot performance, further
adaptation of CLIP on downstream tasks is indispensable but undesirably
degrades OOD generalization ability. In this paper, we aim at generalizing CLIP
to out-of-distribution test data on downstream tasks. Beyond the two canonical
OOD situations, domain shift and open class, we tackle a more general but
difficult in-the-wild setting where both OOD situations may occur on the unseen
test data. We propose CLIPood, a simple fine-tuning method that can adapt CLIP
models to all OOD situations. To exploit semantic relations between classes
from the text modality, CLIPood introduces a new training objective, margin
metric softmax (MMS), with class adaptive margins for fine-tuning. Moreover, to
incorporate both the pre-trained zero-shot model and the fine-tuned
task-adaptive model, CLIPood proposes a new Beta moving average (BMA) to
maintain a temporal ensemble according to Beta distribution. Experiments on
diverse datasets with different OOD scenarios show that CLIPood consistently
outperforms existing generalization techniques.
- Abstract(参考訳): トレーニングから分散シフトを扱うモデルであるアウト・オブ・ディストリビューション(OOD)の一般化は、機械学習の大きな課題である。
近年, 言語画像事前学習(CLIP)モデルでは, OOD一般化への道のりが目覚ましいゼロショット能力を示している。
しかし、ゼロショット性能を高めるために、下流タスクへのCLIPのさらなる適応は必須だが、OODの一般化能力は好ましくない。
本稿では,CLIPを下流タスクにおける分散テストデータに一般化することを目的とする。
ドメインシフトとオープンクラスという2つの標準的なOOD状況の他に、我々は、見知らぬテストデータに両方のOOD状況が発生するという、より一般的だが困難な状況に対処する。
我々は、CLIPモデルをすべてのOOD状況に適応できる簡単な微調整手法であるCLIPoodを提案する。
テキストモダリティからクラス間のセマンティックな関係を利用するために、CLIPoodは新しいトレーニング目標であるマージンメトリック・ソフトマックス(MMS)を導入し、クラス適応マージンを微調整する。
さらに、事前訓練されたゼロショットモデルと微調整されたタスク適応モデルの両方を組み込むため、clipoodはベータ分布に応じてテンポラルアンサンブルを維持するための新しいベータ移動平均(bma)を提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - Learning from Mistakes: Self-Regularizing Hierarchical Representations
in Point Cloud Semantic Segmentation [15.353256018248103]
LiDARセマンティックセマンティックセマンティクスは、きめ細かいシーン理解を実現するために注目を集めている。
本稿では、標準モデルから派生した分類ミスタケス(LEAK)からLEArnを分離する粗大な設定を提案する。
我々のLEAKアプローチは非常に一般的で、どんなセグメンテーションアーキテクチャにもシームレスに適用できます。
論文 参考訳(メタデータ) (2023-01-26T14:52:30Z) - Adaptive Consistency Regularization for Semi-Supervised Transfer
Learning [31.66745229673066]
我々は,半教師付き学習と移動学習を共同で検討し,より実践的で競争的なパラダイムへと導いた。
事前学習した重みとラベルなしの目標サンプルの両方の価値をよりよく活用するために、適応整合正則化を導入する。
提案手法は,Pseudo Label,Mean Teacher,MixMatchといった,最先端の半教師付き学習技術より優れた適応整合性正規化を実現する。
論文 参考訳(メタデータ) (2021-03-03T05:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。