論文の概要: Complementary Subspace Low-Rank Adaptation of Vision-Language Models for Few-Shot Classification
- arxiv url: http://arxiv.org/abs/2501.15040v1
- Date: Sat, 25 Jan 2025 02:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:47.467323
- Title: Complementary Subspace Low-Rank Adaptation of Vision-Language Models for Few-Shot Classification
- Title(参考訳): Few-Shot分類のための視覚言語モデルの補足部分空間低ランク適応
- Authors: Zhongqi Wang, Jia Dai, Kai Li, Xu Li, Yanmeng Guo, Maosheng Xiang,
- Abstract要約: 視覚言語モデル(VLM)は、事前訓練された基礎モデルとして大規模な画像テキストアライメントのために設計されている。
低ランク適応 (LoRA) アルゴリズムは、ショットファインチューニングVLMではめったに考慮されていない。
そこで本研究では,数発のVLMファインタニングにおいて,大惨な記憶問題を正規化するための補空間低階適応法(Comp-LoRA)を提案する。
- 参考スコア(独自算出の注目度): 6.801416831975985
- License:
- Abstract: Vision language model (VLM) has been designed for large scale image-text alignment as a pretrained foundation model. For downstream few shot classification tasks, parameter efficient fine-tuning (PEFT) VLM has gained much popularity in the computer vision community. PEFT methods like prompt tuning and linear adapter have been studied for fine-tuning VLM while low rank adaptation (LoRA) algorithm has rarely been considered for few shot fine-tuning VLM. The main obstacle to use LoRA for few shot fine-tuning is the catastrophic forgetting problem. Because the visual language alignment knowledge is important for the generality in few shot learning, whereas low rank adaptation interferes with the most informative direction of the pretrained weight matrix. We propose the complementary subspace low rank adaptation (Comp-LoRA) method to regularize the catastrophic forgetting problem in few shot VLM finetuning. In detail, we optimize the low rank matrix in the complementary subspace, thus preserving the general vision language alignment ability of VLM when learning the novel few shot information. We conduct comparison experiments of the proposed Comp-LoRA method and other PEFT methods on fine-tuning VLM for few shot classification. And we also present the suppression on the catastrophic forgetting problem of our proposed method against directly applying LoRA to VLM. The results show that the proposed method surpasses the baseline method by about +1.0\% Top-1 accuracy and preserves the VLM zero-shot performance over the baseline method by about +1.3\% Top-1 accuracy.
- Abstract(参考訳): 視覚言語モデル(VLM)は、事前訓練された基礎モデルとして大規模な画像テキストアライメントのために設計されている。
下流のいくつかのショット分類タスクでは、パラメータ効率の良い微調整(PEFT)VLMがコンピュータビジョンコミュニティで広く普及している。
低ランク適応 (LoRA) アルゴリズムはショット微調整VLMではめったに考慮されていないが, 高速チューニングやリニアアダプタなどのPEFT手法は微調整VLMに対して研究されている。
LoRAをわずかな微調整で使用する主な障害は、破滅的な忘れの問題である。
視覚言語アライメントの知識は、少数のショットラーニングにおいて一般性にとって重要であるが、低ランク適応は、事前訓練された重み行列の最も情報的な方向に干渉する。
そこで本研究では,数発のVLMファインタニングにおいて,大惨な記憶問題を正規化するための補空間低階適応法(Comp-LoRA)を提案する。
補間部分空間における低階行列を最適化し、新規なショット情報を学習する際に、VLMの一般的な視覚言語アライメント能力を維持する。
提案手法とPEFT法の比較実験を行った。
また,本手法がVLMにLoRAを直接適用する際の破滅的忘れ問題に対する抑制効果を示す。
その結果,提案手法はベースライン法を約1.0 %Top-1精度で上回り,VLMゼロショット性能を約+1.3 %Top-1精度で維持することがわかった。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation [13.585425242072173]
最も一般的に使われている微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。
活性化のミニバッチ上での特異値分解(SVD)を計算し,データ駆動方式で新たな重み付けを初期化することによりLoRAを改善することを提案する。
新しいメソッドを $textbfE$xplained $textbfV$ariance $textbfA$daptation (EVA) と呼びます。
論文 参考訳(メタデータ) (2024-10-09T17:59:06Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models [13.660511750245245]
この研究は、バイアス継承に対抗するために設計された新しいPEFT法であるBias-Alleviating Low-Rank Adaptation (BA-LoRA)を導入している。
BA-LoRAは、(1)整合正則化器、(2)多様性正則化器、(3)特異値分解正則化器の3つの異なる正則化項を含む。
その結果、BA-LoRAはLoRAとその最先端の変種よりも優れていた。
論文 参考訳(メタデータ) (2024-08-08T16:13:26Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Exploring Vision-Language Models for Imbalanced Learning [29.235472353759388]
対照的な言語画像事前学習を用いた視覚言語モデル(VLM)は、ゼロショット分類性能が有望であることを示す。
本研究では,大容量データによって事前学習されたVLMに対して,不均衡学習アルゴリズムが重要であることを明らかにする。
論文 参考訳(メタデータ) (2023-04-04T01:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。