Fugu-MT 論文翻訳(概要): Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization

論文の概要: Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization

arxiv url: http://arxiv.org/abs/2407.08374v3
Date: Wed, 16 Oct 2024 09:37:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 22:29:08.928431
Title: Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization
Title（参考訳）: 直交学習と自己正規化による視覚言語モデルのロバスト性向上
Authors: Jinlong Li, Dong Zhao, Zequn Jie, Elisa Ricci, Lin Ma, Nicu Sebe,
Abstract要約: そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
参考スコア（独自算出の注目度）: 77.62516752323207
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efficient fine-tuning of vision-language models (VLMs) like CLIP for specific downstream tasks is gaining significant attention. Previous works primarily focus on prompt learning to adapt the CLIP into a variety of downstream tasks, however, suffering from task overfitting when fine-tuned on a small data set. In this paper, we introduce an orthogonal fine-tuning method for efficiently fine-tuning pretrained weights and enabling enhanced robustness and generalization, while a self-regularization strategy is further exploited to maintain the stability in terms of zero-shot generalization of VLMs, dubbed OrthSR. Specifically, trainable orthogonal matrices are injected seamlessly into the transformer architecture and enforced with orthogonality constraint during the training, benefiting from the norm-preserving property and thus leading to stable and faster convergence, while keeping the pre-trained weights frozen. To alleviate deviation from fine-tuning, a self-regularization strategy is further employed to retain the generalization of the model during the training within a bypass manner. In addition, to enrich the sample diversity for downstream tasks under the small dataset scenario, we first explore attentive CutOut data augmentation to boost the efficient fine-tuning, leading to better model fitting capacity for specific downstream task. Then we support the theoretical analysis on how our approach improves the specific downstream performance and maintains the generalizability. For the first time, we revisit the CLIP and CoOp with our method to effectively improve the model on few-shot image classficiation scenario on par with the elaborated prompt learning methods.
Abstract（参考訳）: 特定の下流タスクのためのCLIPのような視覚言語モデル(VLM)の効率的な微調整が注目されている。これまでの作業は主に、CLIPをさまざまなダウンストリームタスクに適応させる学習の迅速化に重点を置いていたが、小さなデータセットで微調整された場合、タスク過度な調整に悩まされていた。本稿では,事前訓練した重量を効率よく微調整し,頑健さと一般化を向上する直交微調整手法を提案する。一方,自己正規化戦略は,OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。具体的には、トレーニング可能な直交行列をトランスアーキテクチャにシームレスに注入し、トレーニング中に直交制約を課し、標準保存特性の恩恵を受けながら、トレーニング済みの重みを凍結したまま安定かつ迅速に収束させる。微調整による偏差を軽減するため、バイパス方式でトレーニング中のモデルの一般化を維持するために、自己正規化戦略をさらに活用する。さらに、小さなデータセットシナリオ下で下流タスクのサンプルの多様性を強化するために、まず注意深いCutOutデータ拡張を検討し、効率のよい微調整を強化し、特定の下流タスクのモデル適合能力を向上する。そして,本手法が特定の下流性能をどのように改善し,一般化可能性を維持するかの理論解析を支援する。筆者らはCLIPとCoOpを再検討し、より精巧なプロンプト学習手法と同等に、少数ショット画像のクラスフィシエーションシナリオのモデルを効果的に改善した。

関連論文リスト

Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文参考訳（メタデータ） (2025-06-23T18:17:39Z)
Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文参考訳（メタデータ） (2025-04-09T17:59:42Z)
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文参考訳（メタデータ） (2024-06-20T05:18:37Z)
Revisiting the Robust Generalization of Adversarial Prompt Tuning [4.033827046965844]
本稿では,画像とテキストの特徴のアライメントを高めるために,適応型一貫性誘導型適応型適応型適応プロンプトチューニング(CAPT)フレームワークを提案する。我々は14のデータセットと4つのデータ空間をまたいだ実験を行い、CAPTが他の最先端の適応手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-18T02:54:41Z)
Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文参考訳（メタデータ） (2023-06-21T05:26:28Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Improving Fine-tuning of Self-supervised Models with Contrastive Initialization [11.595212661616259]
本稿では,標準的な微調整パイプラインを破るContrastive Initialization (COIN)法を提案する。当社のCOINは、余分なトレーニングコストを伴わずに既存の方法よりも大幅に優れています。
論文参考訳（メタデータ） (2022-07-30T14:45:57Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文参考訳（メタデータ） (2020-04-27T08:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。