論文の概要: ProKeR: A Kernel Perspective on Few-Shot Adaptation of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.11175v1
- Date: Sun, 19 Jan 2025 21:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:13.831428
- Title: ProKeR: A Kernel Perspective on Few-Shot Adaptation of Large Vision-Language Models
- Title(参考訳): ProKeR:大型ビジョンランゲージモデルのFew-Shot適応に関するカーネル視点
- Authors: Yassir Bendou, Amine Ouasfi, Vincent Gripon, Adnane Boukhayma,
- Abstract要約: Contrastive Language-Image Pretraining (CLIP)は、様々な視覚的下流タスクに広く応用されている。
本稿ではカーネルの観点からTip-Adapterを再検討し、キャッシュメソッドがローカルアダプタとして機能することを示す。
本稿では,CLIPをベースラーナとして,再現カーネルHilbert空間における近似正規化子を学習するグローバルな手法を提案する。
- 参考スコア(独自算出の注目度): 8.66217922377209
- License:
- Abstract: The growing popularity of Contrastive Language-Image Pretraining (CLIP) has led to its widespread application in various visual downstream tasks. To enhance CLIP's effectiveness and versatility, efficient few-shot adaptation techniques have been widely adopted. Among these approaches, training-free methods, particularly caching methods exemplified by Tip-Adapter, have gained attention for their lightweight adaptation without the need for additional fine-tuning. In this paper, we revisit Tip-Adapter from a kernel perspective, showing that caching methods function as local adapters and are connected to a well-established kernel literature. Drawing on this insight, we offer a theoretical understanding of how these methods operate and suggest multiple avenues for enhancing the Tip-Adapter baseline. Notably, our analysis shows the importance of incorporating global information in local adapters. Therefore, we subsequently propose a global method that learns a proximal regularizer in a reproducing kernel Hilbert space (RKHS) using CLIP as a base learner. Our method, which we call ProKeR (Proximal Kernel ridge Regression), has a closed form solution and achieves state-of-the-art performances across 11 datasets in the standard few-shot adaptation benchmark.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP) の人気が高まっており、様々な視覚的下流タスクに広く応用されている。
CLIPの有効性と汎用性を高めるために、効率的な小ショット適応技術が広く採用されている。
これらの手法の中で、特にTip-Adapterによって実証されたトレーニングフリーな手法は、追加の微調整を必要とせずに軽量な適応に注目されている。
本稿ではカーネルの観点からTip-Adapterを再検討し、キャッシュメソッドがローカルアダプタとして機能し、確立されたカーネルの文献に接続可能であることを示す。
この知見に基づいて、これらの手法がどのように機能するかを理論的に理解し、Tip-Adapterベースラインを強化するための複数の道を提案する。
特に,グローバルな情報をローカルアダプターに組み込むことの重要性が示唆された。
そこで本研究では,CLIPをベースラーナとして,再現カーネルHilbert空間(RKHS)における近似正規化子を学習するグローバル手法を提案する。
提案手法はProKeR(Proximal Kernel ridge Regression)と呼ばれ、クローズドなフォームソリューションを持ち、標準の少数ショット適応ベンチマークにおいて11データセットにわたる最先端のパフォーマンスを実現する。
関連論文リスト
- Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia [45.93202559299953]
本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。
視覚の最後のプロジェクション行列を微調整するだけで、全てのベースラインよりもパフォーマンスが向上することがわかった。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマークで最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification [3.594351309950969]
CapS-Adapterは、イメージとキャプションの両方の機能を活用して、トレーニング不要シナリオにおける既存の最先端技術を超える革新的な方法である。
提案手法は,19個のベンチマークデータセットのゼロショット分類結果に優れており,従来の先行手法よりも2.19%精度が向上している。
論文 参考訳(メタデータ) (2024-05-26T14:50:40Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。