論文の概要: Singular Value Few-shot Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.03740v1
- Date: Wed, 03 Sep 2025 22:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.984193
- Title: Singular Value Few-shot Adaptation of Vision-Language Models
- Title(参考訳): 視覚言語モデルの特異値Few-shot適応
- Authors: Taha Koleilat, Hassan Rivaz, Yiming Xiao,
- Abstract要約: 我々は,新しいテキストマルチモーダルおよびテキストパラメータ効率適応手法であるtextbfCLIP-SVD を提案する。
CLIP-SVDは追加モジュールを注入することなくCLIPの内部パラメータ空間を変更する。
11の自然と10のバイオメディカルデータセットに対して、最先端の分類結果を達成する。
- 参考スコア(独自算出の注目度): 9.71224567110431
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) like CLIP have shown impressive zero-shot and few-shot learning capabilities across diverse applications. However, adapting these models to new fine-grained domains remains difficult due to reliance on prompt engineering and the high cost of full model fine-tuning. Existing adaptation approaches rely on augmented components, such as prompt tokens and adapter modules, which could limit adaptation quality, destabilize the model, and compromise the rich knowledge learned during pretraining. In this work, we present \textbf{CLIP-SVD}, a novel \textit{multi-modal} and \textit{parameter-efficient} adaptation technique that leverages Singular Value Decomposition (SVD) to modify the internal parameter space of CLIP without injecting additional modules. Specifically, we fine-tune only the singular values of the CLIP parameter matrices to rescale the basis vectors for domain adaptation while retaining the pretrained model. This design enables enhanced adaptation performance using only \textbf{0.04\%} of the model's total parameters and better preservation of its generalization ability. CLIP-SVD achieves state-of-the-art classification results on 11 natural and 10 biomedical datasets, outperforming previous methods in both accuracy and generalization under few-shot settings. Additionally, we leverage a natural language-based approach to analyze the effectiveness and dynamics of the CLIP adaptation to allow interpretability of CLIP-SVD. The code is publicly available at https://github.com/HealthX-Lab/CLIP-SVD.
- Abstract(参考訳): CLIPのようなヴィジュアル言語モデル(VLM)は、多様なアプリケーションにまたがって、印象的なゼロショットと少数ショットの学習能力を示している。
しかし、これらのモデルを新しいきめ細かな領域に適応させることは、迅速なエンジニアリングとフルモデル微調整のコストに頼っているため、依然として困難である。
既存の適応アプローチは、プロンプトトークンやアダプタモジュールなどの拡張コンポーネントに依存しており、適応品質を制限し、モデルを不安定化し、事前訓練中に学んだ豊富な知識を損なう可能性がある。
本稿では,Singular Value Decomposition (SVD) を利用した新規な \textit{multi-modal} および \textit{parameter-efficient} 適応手法である \textbf{CLIP-SVD} について述べる。
具体的には、CLIPパラメータ行列の特異値のみを微調整し、事前訓練されたモデルを維持しながら、ドメイン適応のための基底ベクトルを再スケールする。
この設計により、モデルの総パラメータの \textbf{0.04\%} のみを使用して適応性能を向上し、一般化能力の保存性が向上する。
CLIP-SVDは11のバイオメディカルデータセットと10のバイオメディカルデータセットに対して最先端の分類結果を達成する。
さらに,CLIP適応の有効性とダイナミクスを分析し,CLIP-SVDの解釈可能性を実現するために,自然言語ベースのアプローチを活用する。
コードはhttps://github.com/HealthX-Lab/CLIP-SVDで公開されている。
関連論文リスト
- SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR [65.90944188787786]
ローランク適応(LoRA)は、音声アプリケーションで広く使われているが、VeRA、DoRA、PiSSA、SVFTといった最先端の変種は、主に言語や視覚タスクのために開発されており、音声による検証は限られている。
本研究は,これらのPEFTメソッドをESPnet内での総合的な統合とベンチマークを行う。
本研究では、0.1Bから2Bまでのモデルスケールで、幼児の発話や方言の変化を含むドメインシフト音声認識タスクに関するすべての手法を評価する。
論文 参考訳(メタデータ) (2025-09-02T20:51:17Z) - DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images [14.448350657613368]
DeeCLIPはAI生成画像を検出するための新しいフレームワークである。
DeeFuserは、高レベルと低レベルの機能を組み合わせたフュージョンモジュールである。
4クラスのProGANデータのみをトレーニングし,平均精度は89.90%に達した。
論文 参考訳(メタデータ) (2025-04-28T15:06:28Z) - CLIP's Visual Embedding Projector is a Few-shot Cornucopia [45.93202559299953]
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。