論文の概要: Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization
- arxiv url: http://arxiv.org/abs/2407.08374v3
- Date: Wed, 16 Oct 2024 09:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:38:49.000397
- Title: Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization
- Title(参考訳): 直交学習と自己正規化による視覚言語モデルのロバスト性向上
- Authors: Jinlong Li, Dong Zhao, Zequn Jie, Elisa Ricci, Lin Ma, Nicu Sebe,
- Abstract要約: そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
- 参考スコア(独自算出の注目度): 77.62516752323207
- License:
- Abstract: Efficient fine-tuning of vision-language models (VLMs) like CLIP for specific downstream tasks is gaining significant attention. Previous works primarily focus on prompt learning to adapt the CLIP into a variety of downstream tasks, however, suffering from task overfitting when fine-tuned on a small data set. In this paper, we introduce an orthogonal fine-tuning method for efficiently fine-tuning pretrained weights and enabling enhanced robustness and generalization, while a self-regularization strategy is further exploited to maintain the stability in terms of zero-shot generalization of VLMs, dubbed OrthSR. Specifically, trainable orthogonal matrices are injected seamlessly into the transformer architecture and enforced with orthogonality constraint during the training, benefiting from the norm-preserving property and thus leading to stable and faster convergence, while keeping the pre-trained weights frozen. To alleviate deviation from fine-tuning, a self-regularization strategy is further employed to retain the generalization of the model during the training within a bypass manner. In addition, to enrich the sample diversity for downstream tasks under the small dataset scenario, we first explore attentive CutOut data augmentation to boost the efficient fine-tuning, leading to better model fitting capacity for specific downstream task. Then we support the theoretical analysis on how our approach improves the specific downstream performance and maintains the generalizability. For the first time, we revisit the CLIP and CoOp with our method to effectively improve the model on few-shot image classficiation scenario on par with the elaborated prompt learning methods.
- Abstract(参考訳): 特定の下流タスクのためのCLIPのような視覚言語モデル(VLM)の効率的な微調整が注目されている。
これまでの作業は主に、CLIPをさまざまなダウンストリームタスクに適応させる学習の迅速化に重点を置いていたが、小さなデータセットで微調整された場合、タスク過度な調整に悩まされていた。
本稿では,事前訓練した重量を効率よく微調整し,頑健さと一般化を向上する直交微調整手法を提案する。一方,自己正規化戦略は,OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
具体的には、トレーニング可能な直交行列をトランスアーキテクチャにシームレスに注入し、トレーニング中に直交制約を課し、標準保存特性の恩恵を受けながら、トレーニング済みの重みを凍結したまま安定かつ迅速に収束させる。
微調整による偏差を軽減するため、バイパス方式でトレーニング中のモデルの一般化を維持するために、自己正規化戦略をさらに活用する。
さらに、小さなデータセットシナリオ下で下流タスクのサンプルの多様性を強化するために、まず注意深いCutOutデータ拡張を検討し、効率のよい微調整を強化し、特定の下流タスクのモデル適合能力を向上する。
そして,本手法が特定の下流性能をどのように改善し,一般化可能性を維持するかの理論解析を支援する。
筆者らはCLIPとCoOpを再検討し、より精巧なプロンプト学習手法と同等に、少数ショット画像のクラスフィシエーションシナリオのモデルを効果的に改善した。
関連論文リスト
- Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Test-Time Training for Semantic Segmentation with Output Contrastive
Loss [12.535720010867538]
ディープラーニングベースのセグメンテーションモデルは、公開ベンチマークで印象的なパフォーマンスを達成したが、目に見えない環境にうまく一般化することは、依然として大きな課題である。
本稿では、適応過程を安定させるために、頑健で一般化された表現を学習する能力で知られるコントラストロス(OCL)を紹介する。
本手法は,テスト領域データに対するドメイン適応法を用いて事前学習したモデルに適用した場合においても優れ,そのレジリエンスと適応性を示す。
論文 参考訳(メタデータ) (2023-11-14T03:13:47Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Variance-Covariance Regularization Improves Representation Learning [28.341622247252705]
我々は,分散共分散正規化(VCReg)を導入して,自己教師型学習規則化手法を教師型学習コンテキストに適用する。
我々は、VCRegが画像やビデオの転送学習を大幅に強化し、多数のタスクやデータセットで最先端のパフォーマンスを達成することを実証した。
要約すると、VCRegは、転送学習を大幅に進歩させ、勾配飢餓、神経崩壊、特徴伝達可能性の間の接続を強調する、普遍的に適用可能な正規化フレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-23T05:01:02Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Posterior Meta-Replay for Continual Learning [4.319932092720977]
連続学習(CL)アルゴリズムは最近、i.i.dでトレーニングする必要性を克服しようとするため、多くの注目を集めている。
未知のターゲットデータ分布からのサンプル。
ベイズ的視点を取り入れ,タスク固有の後方分布を継続的に学習することによって,cl問題に取り組むための原理的な方法を検討した。
論文 参考訳(メタデータ) (2021-03-01T17:08:35Z) - Data-driven Regularization via Racecar Training for Generalizing Neural
Networks [28.08782668165276]
ニューラルネットワークの一般化を改善するための新しいトレーニング手法を提案する。
逆パスによる実践的なネットワークアーキテクチャにおいて,私たちの定式化が容易に実現可能であることを示す。
提案手法で学習したネットワークは,すべての層で入力と出力のバランスが良くなり,説明性が向上し,各種タスクやタスク転送の性能が向上した。
論文 参考訳(メタデータ) (2020-06-30T18:00:41Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。