論文の概要: Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization
- arxiv url: http://arxiv.org/abs/2407.08374v1
- Date: Thu, 11 Jul 2024 10:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:49:33.867607
- Title: Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization
- Title(参考訳): 直交学習と相互規則化による視覚言語モデルのロバスト性向上
- Authors: Jinlong Li, Zequn Jie, Elisa Ricci, Lin Ma, Nicu Sebe,
- Abstract要約: 本稿では,事前学習した重量を効率的に更新する直交微調整法を提案する。
また、VLMのゼロショット一般化の観点から安定性を維持するために、クロスレギュラー化戦略を利用する。
下流タスクのサンプルの多様性を強化するために、我々はまず、効率的な微調整を促進するためにカットアウトデータ拡張を探索する。
- 参考スコア(独自算出の注目度): 78.61621802973262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient finetuning of vision-language models (VLMs) like CLIP for specific downstream tasks is gaining significant attention. Previous works primarily focus on prompt learning to adapt the CLIP into a variety of downstream tasks, however, suffering from task overfitting when finetuned on a small data set. In this paper, we introduce an orthogonal finetuning method for efficiently updating pretrained weights which enhances robustness and generalization, while a cross-regularization strategy is further exploited to maintain the stability in terms of zero-shot generalization of VLMs, dubbed \textbf{\textit{OrthCR}}. Specifically, trainable orthogonal matrices are injected seamlessly into the transformer architecture and enforced with orthogonality constraint using Cayley parameterization, benefiting from the norm-preserving property and thus leading to stable and faster convergence. To alleviate deviation from orthogonal constraint during training, a cross-regularization strategy is further employed with initial pretrained weights within a bypass manner. In addition, to enrich the sample diversity for downstream tasks, we first explore Cutout data augmentation to boost the efficient finetuning and comprehend how our approach improves the specific downstream performance and maintains the generalizability in the perspective of Orthogonality Learning. Beyond existing prompt learning techniques, we conduct extensive experiments to demonstrate that our method explicitly steers pretrained weight space to represent the task-specific knowledge and presents competitive generalizability under \textit{base-to-base/base-to-new}, \textit{cross-dataset transfer} and \textit{domain generalization} evaluations.
- Abstract(参考訳): 特定の下流タスクのためのCLIPのような視覚言語モデル(VLM)の効率的な微調整が注目されている。
これまでの作業は主に、CLIPをさまざまなダウンストリームタスクに適応させるための学習の促進に重点を置いていたが、小さなデータセットに微調整された場合のタスク過度な調整に悩まされていた。
本稿では,強靭性や一般化を向上する事前学習重みを効率的に更新する直交微調整手法を提案するとともに,VLMのゼロショット一般化(textbf{\textit{OrthCR}})の観点から安定性を維持するために,相互正規化戦略をさらに活用する。
具体的には、トレーニング可能な直交行列をトランスフォーマーアーキテクチャにシームレスに注入し、ケイリーパラメータ化を用いて直交制約を課し、ノルム保存特性の恩恵を受け、安定かつ高速な収束をもたらす。
トレーニング中の直交制約からの逸脱を軽減するため、バイパス方式で事前訓練した初期重みを相互正規化戦略がさらに採用される。
さらに、下流タスクのサンプルの多様性を強化するために、まずカットアウトデータ拡張を探求し、効率的な微調整を向上し、我々のアプローチが特定の下流のパフォーマンスをどのように改善するかを理解し、直交学習の観点から一般化性を維持する。
既存の即時学習技術以外にも,本手法は,タスク固有の知識を表現するためにトレーニング済みの重み空間を明示的にステアリングし,さらに,textit{base-to-base/base-to-new}, \textit{cross-dataset transfer}, \textit{domain generalization} 評価に基づいて,競争一般化性を示す。
関連論文リスト
- Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Test-Time Training for Semantic Segmentation with Output Contrastive
Loss [12.535720010867538]
ディープラーニングベースのセグメンテーションモデルは、公開ベンチマークで印象的なパフォーマンスを達成したが、目に見えない環境にうまく一般化することは、依然として大きな課題である。
本稿では、適応過程を安定させるために、頑健で一般化された表現を学習する能力で知られるコントラストロス(OCL)を紹介する。
本手法は,テスト領域データに対するドメイン適応法を用いて事前学習したモデルに適用した場合においても優れ,そのレジリエンスと適応性を示す。
論文 参考訳(メタデータ) (2023-11-14T03:13:47Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Variance-Covariance Regularization Improves Representation Learning [28.341622247252705]
我々は,分散共分散正規化(VCReg)を導入して,自己教師型学習規則化手法を教師型学習コンテキストに適用する。
我々は、VCRegが画像やビデオの転送学習を大幅に強化し、多数のタスクやデータセットで最先端のパフォーマンスを達成することを実証した。
要約すると、VCRegは、転送学習を大幅に進歩させ、勾配飢餓、神経崩壊、特徴伝達可能性の間の接続を強調する、普遍的に適用可能な正規化フレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-23T05:01:02Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Posterior Meta-Replay for Continual Learning [4.319932092720977]
連続学習(CL)アルゴリズムは最近、i.i.dでトレーニングする必要性を克服しようとするため、多くの注目を集めている。
未知のターゲットデータ分布からのサンプル。
ベイズ的視点を取り入れ,タスク固有の後方分布を継続的に学習することによって,cl問題に取り組むための原理的な方法を検討した。
論文 参考訳(メタデータ) (2021-03-01T17:08:35Z) - Data-driven Regularization via Racecar Training for Generalizing Neural
Networks [28.08782668165276]
ニューラルネットワークの一般化を改善するための新しいトレーニング手法を提案する。
逆パスによる実践的なネットワークアーキテクチャにおいて,私たちの定式化が容易に実現可能であることを示す。
提案手法で学習したネットワークは,すべての層で入力と出力のバランスが良くなり,説明性が向上し,各種タスクやタスク転送の性能が向上した。
論文 参考訳(メタデータ) (2020-06-30T18:00:41Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。