論文の概要: SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models
- arxiv url: http://arxiv.org/abs/2210.03794v1
- Date: Fri, 7 Oct 2022 19:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:12:34.415005
- Title: SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models
- Title(参考訳): SVLアダプタ:視覚言語事前学習モデルのための自己監督型アダプタ
- Authors: Omiros Pantazis, Gabriel Brostow, Kate Jones, Oisin Mac Aodha
- Abstract要約: CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 9.017387427570538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models such as CLIP are pretrained on large volumes of
internet sourced image and text pairs, and have been shown to sometimes exhibit
impressive zero- and low-shot image classification performance. However, due to
their size, fine-tuning these models on new datasets can be prohibitively
expensive, both in terms of the supervision and compute required. To combat
this, a series of light-weight adaptation methods have been proposed to
efficiently adapt such models when limited supervision is available. In this
work, we show that while effective on internet-style datasets, even those
remedies under-deliver on classification tasks with images that differ
significantly from those commonly found online. To address this issue, we
present a new approach called SVL-Adapter that combines the complementary
strengths of both vision-language pretraining and self-supervised
representation learning. We report an average classification accuracy
improvement of 10% in the low-shot setting when compared to existing methods,
on a set of challenging visual classification tasks. Further, we present a
fully automatic way of selecting an important blending hyperparameter for our
model that does not require any held-out labeled validation data. Code for our
project is available here: https://github.com/omipan/svl_adapter.
- Abstract(参考訳): CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されており、時としてゼロ画像とローショット画像の分類性能を示すことが示されている。
しかし、そのサイズのため、これらのモデルを新しいデータセットで微調整することは、監視と計算の両面で、非常に高価である。
これに対処するため、限られた監督が可能であれば効率的にモデルを適用するために、一連の軽量適応法が提案されている。
本研究では、インターネットスタイルのデータセットに効果があるにもかかわらず、オンラインでよく見られるものとは大きく異なる画像を用いた分類タスクを過小評価していることを示す。
本稿では,視覚言語事前学習と自己教師付き表現学習の両強みを組み合わせたsvl-adapterと呼ばれる新しいアプローチを提案する。
本報告では, 従来の手法と比較して, 難解な視覚的分類課題のセットに基づいて, 低ショット設定における平均分類精度を10%向上させる。
さらに,本モデルにおいて,保持ラベル付き検証データを必要としない重要なブレンディングハイパーパラメータを完全自動で選択する手法を提案する。
私たちのプロジェクトのコードは、https://github.com/omipan/svl_adapter.com/で利用可能です。
関連論文リスト
- Active Learning for Vision-Language Models [29.309503214127016]
視覚言語モデル(VLM)のゼロショット分類性能を向上させる新しいアクティブラーニング(AL)フレームワークを提案する。
提案手法はまず, VLMの予測エントロピーを校正し, 自己不確かさと隣接認識の不確実性の組み合わせを用いて, 有効試料選択のための信頼性のある不確実性尺度を算出する。
提案手法は,複数の画像分類データセットにおいて,既存のAL手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:25:50Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Unsupervised Prototype Adapter for Vision-Language Models [29.516767588241724]
我々はUnsupervised Prototype Adapter (UP-Adapter)と呼ばれる視覚言語モデルのための教師なし微調整アプローチを設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
微調整後、プロトタイプモデル予測と元のCLIPの予測を残りの接続で組み合わせて下流認識タスクを実行する。
論文 参考訳(メタデータ) (2023-08-22T15:28:49Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Prompt Tuning based Adapter for Vision-Language Model Adaption [38.576215369504446]
本稿では、事前学習したプロンプト・タニングと効率的な適応ネットワークを組み合わせた、Prompt-Adapterと呼ばれる新しいモデルを提案する。
我々のアプローチは、パブリックな11のデータセットの少数ショット画像分類において最先端の手法を上回った。
提案手法は,高速な視覚言語モデル適応のために,プロンプトチューニングとパラメータ効率のよいネットワークを組み合わせることの可能性を実証する。
論文 参考訳(メタデータ) (2023-03-24T15:05:17Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。