論文の概要: Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization
- arxiv url: http://arxiv.org/abs/2407.08374v2
- Date: Mon, 15 Jul 2024 08:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 13:31:11.121652
- Title: Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization
- Title(参考訳): 直交学習と相互規則化による視覚言語モデルのロバスト性向上
- Authors: Jinlong Li, Zequn Jie, Elisa Ricci, Lin Ma, Nicu Sebe,
- Abstract要約: トレーニング済み重量を効率的に更新するための直交微調整法を提案する。
クロスレギュラー化戦略はゼロショットの一般化の観点から安定性を維持するためにも用いられる。
提案手法は,タスク固有の知識を表現するために,事前学習した重み空間を明示的に操るものであることを実証するために,広範囲にわたる実験を行った。
- 参考スコア(独自算出の注目度): 78.61621802973262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient finetuning of vision-language models (VLMs) like CLIP for specific downstream tasks is gaining significant attention. Previous works primarily focus on prompt learning to adapt the CLIP into a variety of downstream tasks, however, suffering from task overfitting when finetuned on a small data set. In this paper, we introduce an orthogonal finetuning method for efficiently updating pretrained weights which enhances robustness and generalization, while a cross-regularization strategy is further exploited to maintain the stability in terms of zero-shot generalization of VLMs, dubbed \textbf{\textit{OrthCR}}. Specifically, trainable orthogonal matrices are injected seamlessly into the transformer architecture and enforced with orthogonality constraint using Cayley parameterization, benefiting from the norm-preserving property and thus leading to stable and faster convergence. To alleviate deviation from orthogonal constraint during training, a cross-regularization strategy is further employed with initial pretrained weights within a bypass manner. In addition, to enrich the sample diversity for downstream tasks, we first explore Cutout data augmentation to boost the efficient finetuning and comprehend how our approach improves the specific downstream performance and maintains the generalizability in the perspective of Orthogonality Learning. Beyond existing prompt learning techniques, we conduct extensive experiments to demonstrate that our method explicitly steers pretrained weight space to represent the task-specific knowledge and presents competitive generalizability under base-to-base/base-to-new, cross-dataset transfer and domain generalization evaluations.
- Abstract(参考訳): 特定の下流タスクのためのCLIPのような視覚言語モデル(VLM)の効率的な微調整が注目されている。
これまでの作業は主に、CLIPをさまざまなダウンストリームタスクに適応させるための学習の促進に重点を置いていたが、小さなデータセットに微調整された場合のタスク過度な調整に悩まされていた。
本稿では,強靭性や一般化を向上する事前学習重みを効率的に更新する直交微調整手法を提案するとともに,直交正規化戦略をさらに活用して,VLMのゼロショット一般化(textbf{\textit{OrthCR}})の安定性を維持する。
具体的には、トレーニング可能な直交行列をトランスフォーマーアーキテクチャにシームレスに注入し、ケイリーパラメータ化を用いて直交制約を課し、ノルム保存特性の恩恵を受け、安定かつ高速な収束をもたらす。
トレーニング中の直交制約からの逸脱を軽減するため、バイパス方式で事前訓練した初期重みを相互正規化戦略がさらに採用される。
さらに、下流タスクのサンプルの多様性を強化するために、まずカットアウトデータ拡張を探求し、効率的な微調整を向上し、我々のアプローチが特定の下流のパフォーマンスをどのように改善するかを理解し、直交学習の観点から一般化性を維持する。
既存の素早い学習技術以外にも,本手法は,タスク固有の知識を表現するためにトレーニング済みの重み空間を明示的に操り,ベース・トゥ・ベース・トゥ・ベース・トゥ・ベース・トゥ・ニュー,クロスデータセット・トランスファーおよびドメイン・ジェネリゼーション・評価の下での競争一般化性を示す。
関連論文リスト
- Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Revisiting the Robust Generalization of Adversarial Prompt Tuning [4.033827046965844]
本稿では,画像とテキストの特徴のアライメントを高めるために,適応型一貫性誘導型適応型適応型適応プロンプトチューニング(CAPT)フレームワークを提案する。
我々は14のデータセットと4つのデータ空間をまたいだ実験を行い、CAPTが他の最先端の適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-18T02:54:41Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Improving Fine-tuning of Self-supervised Models with Contrastive
Initialization [11.595212661616259]
本稿では,標準的な微調整パイプラインを破るContrastive Initialization (COIN)法を提案する。
当社のCOINは、余分なトレーニングコストを伴わずに既存の方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-07-30T14:45:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。