論文の概要: Prompt Tuning based Adapter for Vision-Language Model Adaption
- arxiv url: http://arxiv.org/abs/2303.15234v1
- Date: Fri, 24 Mar 2023 15:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:54:15.142481
- Title: Prompt Tuning based Adapter for Vision-Language Model Adaption
- Title(参考訳): プロンプトチューニングに基づく視覚言語モデル適応用アダプタ
- Authors: Jingchen Sun, Jiayu Qin, Zihao Lin, Changyou Chen
- Abstract要約: 本稿では、事前学習したプロンプト・タニングと効率的な適応ネットワークを組み合わせた、Prompt-Adapterと呼ばれる新しいモデルを提案する。
我々のアプローチは、パブリックな11のデータセットの少数ショット画像分類において最先端の手法を上回った。
提案手法は,高速な視覚言語モデル適応のために,プロンプトチューニングとパラメータ効率のよいネットワークを組み合わせることの可能性を実証する。
- 参考スコア(独自算出の注目度): 38.576215369504446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained vision-language (VL) models have shown significant promise
in adapting to various downstream tasks. However, fine-tuning the entire
network is challenging due to the massive number of model parameters. To
address this issue, efficient adaptation methods such as prompt tuning have
been proposed. We explore the idea of prompt tuning with multi-task pre-trained
initialization and find it can significantly improve model performance. Based
on our findings, we introduce a new model, termed Prompt-Adapter, that combines
pre-trained prompt tunning with an efficient adaptation network. Our approach
beat the state-of-the-art methods in few-shot image classification on the
public 11 datasets, especially in settings with limited data instances such as
1 shot, 2 shots, 4 shots, and 8 shots images. Our proposed method demonstrates
the promise of combining prompt tuning and parameter-efficient networks for
efficient vision-language model adaptation. The code is publicly available at:
https://github.com/Jingchensun/prompt_adapter.
- Abstract(参考訳): 大規模な事前学習型視覚言語(VL)モデルは、様々な下流タスクに適応する上で大きな可能性を示している。
しかし,モデルパラメータの多さからネットワーク全体の微調整は困難である。
この問題に対処するため,プロンプトチューニングなどの効率的な適応手法が提案されている。
我々は,マルチタスク事前学習した初期化によるプロンプトチューニングのアイデアを探求し,モデル性能を著しく向上できることを示す。
そこで本研究では,事前学習されたプロンプトチューニングと効率的な適応ネットワークを組み合わせた新しいモデルであるprompt-adapterを提案する。
特に1ショット、2ショット、4ショット、8ショット画像といった限られたデータインスタンスの設定では、我々のアプローチは、パブリックな11データセットで数ショットのイメージ分類で最先端の手法を破りました。
提案手法は,高速な視覚言語モデル適応のために,プロンプトチューニングとパラメータ効率のよいネットワークを組み合わせることを実証する。
コードは、https://github.com/Jingchensun/prompt_adapter.comで公開されている。
関連論文リスト
- Cross-Modal Adapter: Parameter-Efficient Transfer Learning Approach for Vision-Language Models [38.751158173278796]
この研究はXMAdapterというクロスモーダルパラメータ効率のアプローチを導入している。
XMAdapterは、テキストと画像のモダリティの両方のキャッシュモデルを確立する。
次に、視覚言語バイモーダル情報による検索を活用して、推論の手がかりを収集する。
論文 参考訳(メタデータ) (2024-04-19T02:33:23Z) - BLIP-Adapter: Parameter-Efficient Transfer Learning for Mobile
Screenshot Captioning [0.5893124686141781]
本研究では,モデル上の追加モジュールのみをチューニングするアダプタ手法の組み合わせを提案する。
画像キャプションモデルのパラメータを凍結し、メソッドに関連する重みのみをトレーニングすることにより、モデル全体の微調整に匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-09-26T09:16:44Z) - AudioToken: Adaptation of Text-Conditioned Diffusion Models for
Audio-to-Image Generation [89.63430567887718]
そこで本研究では,テキスト・ツー・イメージ・ジェネレーションのために訓練された潜時拡散モデルを用いて,音声記録に条件付き画像を生成する手法を提案する。
提案手法は,事前学習された音声符号化モデルを用いて,音声とテキストの表現の適応層とみなすことができる新しいトークンに音声を符号化する。
論文 参考訳(メタデータ) (2023-05-22T14:02:44Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。