論文の概要: CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2109.11797v1
- Date: Fri, 24 Sep 2021 08:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:25:42.944959
- Title: CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models
- Title(参考訳): CPT:事前学習型視覚言語モデルのためのカラープロンプトチューニング
- Authors: Yuan Yao, Ao Zhang, Zhengyan Zhang, Zhiyuan Liu, Tat-Seng Chua,
Maosong Sun
- Abstract要約: 我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 101.5066760592534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-Trained Vision-Language Models (VL-PTMs) have shown promising
capabilities in grounding natural language in image data, facilitating a broad
variety of cross-modal tasks. However, we note that there exists a significant
gap between the objective forms of model pre-training and fine-tuning,
resulting in a need for quantities of labeled data to stimulate the visual
grounding capability of VL-PTMs for downstream tasks. To address the challenge,
we present Cross-modal Prompt Tuning (CPT, alternatively, Colorful Prompt
Tuning), a novel paradigm for tuning VL-PTMs, which reformulates visual
grounding into a fill-in-the-blank problem with color-based co-referential
markers in image and text, maximally mitigating the gap. In this way, our
prompt tuning approach enables strong few-shot and even zero-shot visual
grounding capabilities of VL-PTMs. Comprehensive experimental results show that
prompt tuned VL-PTMs outperform their fine-tuned counterparts by a large margin
(e.g., 17.3% absolute accuracy improvement, and 73.8% relative standard
deviation reduction on average with one shot in RefCOCO evaluation). All the
data and code will be available to facilitate future research.
- Abstract(参考訳): VL-PTM(Pre-Trained Vision-Language Models)は、画像データに自然言語を接地する有望な能力を示し、多種多様なクロスモーダルタスクを可能にしている。
しかし、モデル事前学習と微調整の間には大きなギャップがあることに留意し、従って下流タスクにおけるVL-PTMの視覚的接地能力を刺激するためにラベル付きデータの量が必要であることに留意する。
この課題に対処するために、画像とテキストにおける色に基づく共参照マーカーを用いて視覚的接点を埋め込み問題に再構成し、ギャップを最大化する、VL-PTMをチューニングするための新しいパラダイムであるクロスモーダル・プロンプト・チューニング(CPT、Colorful Prompt Tuning)を提案する。
このようにして、我々はVL-PTMの強力な少数ショットとゼロショットの視覚的グラウンド機能を実現する。
総合的な実験結果から、調整されたVL-PTMは細調整されたVL-PTMよりも大きなマージン(例えば、17.3%の絶対精度改善、73.8%の相対標準偏差減少と1ショットのRefCOCO評価)で優れていた。
すべてのデータとコードは、将来の研究を促進するために利用可能になる。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Declaration-based Prompt Tuning for Visual Question Answering [16.688288454811016]
本稿では,DPT(Declaation-based Prompt Tuning)と呼ばれる,革新的なビジュアル言語(VL)ファインチューニングパラダイムを提案する。
DPTは、VQAモデルの事前学習と微調整の目的を共同で最適化し、事前学習されたVLモデルの下流タスクへの効果的な適応を促進する。
GQAデータセットの実験結果によると、DPTは完全な教師付き(2.68%)とゼロショット/フェーショット(31%以上)の両方で精度に大きな差で微調整されたデータセットよりも優れていた。
論文 参考訳(メタデータ) (2022-05-05T05:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。