論文の概要: Few-Shot Adversarial Low-Rank Fine-Tuning of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.15130v1
- Date: Wed, 21 May 2025 05:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.90714
- Title: Few-Shot Adversarial Low-Rank Fine-Tuning of Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルの非ショット対向低ランクファインタニング
- Authors: Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh, Ramtin Pedarsani,
- Abstract要約: アドリアリトレーニングは,PEFTにおけるモデルロバスト性を改善するための最も効果的な戦略である。
本稿では,LRAで微調整されたCLIPモデルを少数の設定で拡張する最初のアルゴリズムであるAdvCLIP-LoRAを提案する。
- 参考スコア(独自算出の注目度): 13.754960315253014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) such as CLIP have shown remarkable performance in cross-modal tasks through large-scale contrastive pre-training. To adapt these large transformer-based models efficiently for downstream tasks, Parameter-Efficient Fine-Tuning (PEFT) techniques like LoRA have emerged as scalable alternatives to full fine-tuning, especially in few-shot scenarios. However, like traditional deep neural networks, VLMs are highly vulnerable to adversarial attacks, where imperceptible perturbations can significantly degrade model performance. Adversarial training remains the most effective strategy for improving model robustness in PEFT. In this work, we propose AdvCLIP-LoRA, the first algorithm designed to enhance the adversarial robustness of CLIP models fine-tuned with LoRA in few-shot settings. Our method formulates adversarial fine-tuning as a minimax optimization problem and provides theoretical guarantees for convergence under smoothness and nonconvex-strong-concavity assumptions. Empirical results across eight datasets using ViT-B/16 and ViT-B/32 models show that AdvCLIP-LoRA significantly improves robustness against common adversarial attacks (e.g., FGSM, PGD), without sacrificing much clean accuracy. These findings highlight AdvCLIP-LoRA as a practical and theoretically grounded approach for robust adaptation of VLMs in resource-constrained settings.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、大規模なコントラスト事前学習を通じて、クロスモーダルタスクにおいて顕著なパフォーマンスを示している。
下流タスクにこれらの大きなトランスフォーマーベースのモデルを効果的に適応するために、LoRAのようなパラメータ効率の良いファインチューニング(PEFT)技術がフル微調整に代わるスケーラブルな代替手段として登場している。
しかしながら、従来のディープニューラルネットワークと同様に、VLMは、知覚できない摂動がモデル性能を著しく低下させる敵攻撃に対して非常に脆弱である。
PEFTにおけるモデルロバスト性を改善するための最も効果的な戦略は、相反する訓練である。
そこで本研究では,CLIPモデルの対角的ロバスト性向上を目的とした最初のアルゴリズムであるAdvCLIP-LoRAを提案する。
提案手法は, 逆微調整を最小値最適化問題として定式化し, 滑らか性および非凸-強共役仮定下での収束の理論的保証を提供する。
ViT-B/16モデルとViT-B/32モデルを用いた8つのデータセットに対する実験結果から、AdvCLIP-LoRAは、一般的な敵攻撃(例えば、FGSM、PGD)に対するロバスト性を大幅に改善し、よりクリーンな精度を犠牲にしないことが示された。
これらの結果から,AdvCLIP-LoRAは資源制約条件下でのVLMのロバスト適応のための実用的,理論的基礎的なアプローチであることがわかった。
関連論文リスト
- Communication-Efficient Wireless Federated Fine-Tuning for Large-Scale AI Models [13.742950928229078]
Low-Rank Adaptation (LoRA) は、完全に微調整された大型モデルではなく、コンパクトで低ランクな行列を訓練することでこれらの問題に対処する。
本稿では,学習性能と通信効率の両方を最適化する無線フェデレーションLoRAファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T06:15:38Z) - R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - Robust Federated Finetuning of LLMs via Alternating Optimization of LoRA [14.789886179102425]
BERT-Efficient Fine-Tuning (PEFT) 法では、ローランド適応 (LoRA) は計算と通信のコストを削減し、フェデレーショントレーニングを最適化する。
ファインチューンなLoRAアダプタに交互に最適化を施した,フェデレートされたフレームワークであるRoLoRAを提案する。
論文 参考訳(メタデータ) (2025-02-03T19:02:00Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models [9.304845676825584]
本稿では,複数の攻撃戦略と高度な機械学習技術を統合した,新たな敵訓練フレームワークを提案する。
CIFAR-10 や CIFAR-100 などの実世界のデータセットで行った実験により,提案手法がモデルロバスト性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-18T23:47:46Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - FullLoRA-AT: Efficiently Boosting the Robustness of Pretrained Vision
Transformers [61.48709409150777]
Vision Transformer (ViT) モデルは、様々なコンピュータビジョンタスクにおいて徐々に主流になりつつある。
既存の大きなモデルは、トレーニング中のパフォーマンスを優先する傾向があり、ロバストさを無視する可能性がある。
従来のLoRAモジュールよりも前に学習可能なレイヤ正規化を取り入れた新しいLNLoRAモジュールを開発した。
本稿では,学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントに組み込むことにより,FullLoRA-ATフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。