論文の概要: Unsupervised Prototype Adapter for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2308.11507v2
- Date: Fri, 25 Aug 2023 00:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:33:16.536648
- Title: Unsupervised Prototype Adapter for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための教師なしプロトタイプアダプタ
- Authors: Yi Zhang, Ce Zhang, Xueting Hu, Zhihai He
- Abstract要約: 我々はUnsupervised Prototype Adapter (UP-Adapter)と呼ばれる視覚言語モデルのための教師なし微調整アプローチを設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
微調整後、プロトタイプモデル予測と元のCLIPの予測を残りの接続で組み合わせて下流認識タスクを実行する。
- 参考スコア(独自算出の注目度): 29.516767588241724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale pre-trained vision-language models (e.g. CLIP and
ALIGN) have demonstrated remarkable effectiveness in acquiring transferable
visual representations. To leverage the valuable knowledge encoded within these
models for downstream tasks, several fine-tuning approaches, including prompt
tuning methods and adapter-based methods, have been developed to adapt
vision-language models effectively with supervision. However, these methods
rely on the availability of annotated samples, which can be labor-intensive and
time-consuming to acquire, thus limiting scalability. To address this issue, in
this work, we design an unsupervised fine-tuning approach for vision-language
models called Unsupervised Prototype Adapter (UP-Adapter). Specifically, for
the unannotated target datasets, we leverage the text-image aligning capability
of CLIP to automatically select the most confident samples for each class.
Utilizing these selected samples, we generate class prototypes, which serve as
the initialization for the learnable prototype model. After fine-tuning, the
prototype model prediction is combined with the original CLIP's prediction by a
residual connection to perform downstream recognition tasks. Our extensive
experimental results on image recognition and domain generalization show that
the proposed unsupervised method outperforms 8-shot CoOp, 8-shot Tip-Adapter,
and also the state-of-the-art UPL method by large margins.
- Abstract(参考訳): 近年、大規模な事前学習型視覚言語モデル(例えばCLIPやALIGN)は、転送可能な視覚表現の取得において顕著な効果を示している。
下流タスクのためにこれらのモデルに符号化された貴重な知識を活用するために、アクシデントチューニング手法やアダプタベースの手法を含むいくつかの微調整アプローチが開発され、視覚言語モデルに監督を効果的に適応する。
しかし、これらの手法は注釈付きサンプルの可用性に依存しており、それは労働集約的で取得に時間がかかるため、スケーラビリティが制限される。
そこで本研究では,Unsupervised Prototype Adapter (UP-Adapter) と呼ばれる視覚言語モデルの教師なし微調整手法を設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
これらのサンプルを利用して、学習可能なプロトタイプモデルの初期化に役立つクラスプロトタイプを生成する。
微調整後、プロトタイプモデル予測と、残差接続による原クリップの予測とを組み合わせることで、下流認識タスクを行う。
画像認識と領域一般化に関する広範囲な実験結果から,提案手法は8ショットクープ,8ショットチップ適応,最先端upl法を大きなマージンで上回ることがわかった。
関連論文リスト
- Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning [16.998833621046117]
テスト期間中に直接動作するTT-DNA(Test-Time Distribution LearNing Adapter)を提案する。
具体的には,ガウス分布を推定し,少数ショット支援画像の視覚的特徴をモデル化し,支援セットから知識を抽出する。
ヒトの物体相互作用の視覚的推論に関する広範な実験結果から,提案したTT-DNAは既存の最先端手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2024-03-10T01:34:45Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - Knowledge Distillation to Ensemble Global and Interpretable
Prototype-Based Mammogram Classification Models [20.16068689434846]
本稿では,BRAIxProtoPNet++を提案する。
BRAIxProtoPNet++はSOTAのグローバルモデルやプロトタイプモデルよりも高い分類精度を持つことを示す。
論文 参考訳(メタデータ) (2022-09-26T05:04:15Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。