Fugu-MT 論文翻訳(概要): Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization

論文の概要: Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization

arxiv url: http://arxiv.org/abs/2407.08374v1
Date: Thu, 11 Jul 2024 10:35:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 17:49:33.867607
Title: Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization
Title（参考訳）: 直交学習と相互規則化による視覚言語モデルのロバスト性向上
Authors: Jinlong Li, Zequn Jie, Elisa Ricci, Lin Ma, Nicu Sebe,
Abstract要約: 本稿では,事前学習した重量を効率的に更新する直交微調整法を提案する。また、VLMのゼロショット一般化の観点から安定性を維持するために、クロスレギュラー化戦略を利用する。下流タスクのサンプルの多様性を強化するために、我々はまず、効率的な微調整を促進するためにカットアウトデータ拡張を探索する。
参考スコア（独自算出の注目度）: 78.61621802973262
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient finetuning of vision-language models (VLMs) like CLIP for specific downstream tasks is gaining significant attention. Previous works primarily focus on prompt learning to adapt the CLIP into a variety of downstream tasks, however, suffering from task overfitting when finetuned on a small data set. In this paper, we introduce an orthogonal finetuning method for efficiently updating pretrained weights which enhances robustness and generalization, while a cross-regularization strategy is further exploited to maintain the stability in terms of zero-shot generalization of VLMs, dubbed \textbf{\textit{OrthCR}}. Specifically, trainable orthogonal matrices are injected seamlessly into the transformer architecture and enforced with orthogonality constraint using Cayley parameterization, benefiting from the norm-preserving property and thus leading to stable and faster convergence. To alleviate deviation from orthogonal constraint during training, a cross-regularization strategy is further employed with initial pretrained weights within a bypass manner. In addition, to enrich the sample diversity for downstream tasks, we first explore Cutout data augmentation to boost the efficient finetuning and comprehend how our approach improves the specific downstream performance and maintains the generalizability in the perspective of Orthogonality Learning. Beyond existing prompt learning techniques, we conduct extensive experiments to demonstrate that our method explicitly steers pretrained weight space to represent the task-specific knowledge and presents competitive generalizability under \textit{base-to-base/base-to-new}, \textit{cross-dataset transfer} and \textit{domain generalization} evaluations.
Abstract（参考訳）: 特定の下流タスクのためのCLIPのような視覚言語モデル(VLM)の効率的な微調整が注目されている。これまでの作業は主に、CLIPをさまざまなダウンストリームタスクに適応させるための学習の促進に重点を置いていたが、小さなデータセットに微調整された場合のタスク過度な調整に悩まされていた。本稿では,強靭性や一般化を向上する事前学習重みを効率的に更新する直交微調整手法を提案するとともに,VLMのゼロショット一般化(textbf{\textit{OrthCR}})の観点から安定性を維持するために,相互正規化戦略をさらに活用する。具体的には、トレーニング可能な直交行列をトランスフォーマーアーキテクチャにシームレスに注入し、ケイリーパラメータ化を用いて直交制約を課し、ノルム保存特性の恩恵を受け、安定かつ高速な収束をもたらす。トレーニング中の直交制約からの逸脱を軽減するため、バイパス方式で事前訓練した初期重みを相互正規化戦略がさらに採用される。さらに、下流タスクのサンプルの多様性を強化するために、まずカットアウトデータ拡張を探求し、効率的な微調整を向上し、我々のアプローチが特定の下流のパフォーマンスをどのように改善するかを理解し、直交学習の観点から一般化性を維持する。既存の即時学習技術以外にも,本手法は,タスク固有の知識を表現するためにトレーニング済みの重み空間を明示的にステアリングし,さらに,textit{base-to-base/base-to-new}, \textit{cross-dataset transfer}, \textit{domain generalization} 評価に基づいて,競争一般化性を示す。

関連論文リスト

Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文参考訳（メタデータ） (2025-06-23T18:17:39Z)
Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文参考訳（メタデータ） (2025-04-09T17:59:42Z)
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文参考訳（メタデータ） (2024-06-20T05:18:37Z)
Revisiting the Robust Generalization of Adversarial Prompt Tuning [4.033827046965844]
本稿では,画像とテキストの特徴のアライメントを高めるために,適応型一貫性誘導型適応型適応型適応プロンプトチューニング(CAPT)フレームワークを提案する。我々は14のデータセットと4つのデータ空間をまたいだ実験を行い、CAPTが他の最先端の適応手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-18T02:54:41Z)
Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文参考訳（メタデータ） (2023-06-21T05:26:28Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Improving Fine-tuning of Self-supervised Models with Contrastive Initialization [11.595212661616259]
本稿では,標準的な微調整パイプラインを破るContrastive Initialization (COIN)法を提案する。当社のCOINは、余分なトレーニングコストを伴わずに既存の方法よりも大幅に優れています。
論文参考訳（メタデータ） (2022-07-30T14:45:57Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文参考訳（メタデータ） (2020-04-27T08:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。