論文の概要: Understanding and Improving Visual Prompting: A Label-Mapping
Perspective
- arxiv url: http://arxiv.org/abs/2211.11635v4
- Date: Thu, 23 Mar 2023 14:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 18:01:23.451161
- Title: Understanding and Improving Visual Prompting: A Label-Mapping
Perspective
- Title(参考訳): ビジュアルプロンプティングの理解と改善 - ラベルマッピングの視点から
- Authors: Aochuan Chen, Yuguang Yao, Pin-Yu Chen, Yihua Zhang, Sijia Liu
- Abstract要約: 我々は視覚タスクの入力プロンプト技術である視覚プロンプト(VP)を再検討し前進する。
ILM-VPと呼ばれる新しいVPフレームワークを提案し、ソースラベルをターゲットラベルに自動的に再マップする。
提案手法は最先端のVP法よりも優れている。
- 参考スコア(独自算出の注目度): 63.89295305670113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit and advance visual prompting (VP), an input prompting technique
for vision tasks. VP can reprogram a fixed, pre-trained source model to
accomplish downstream tasks in the target domain by simply incorporating
universal prompts (in terms of input perturbation patterns) into downstream
data points. Yet, it remains elusive why VP stays effective even given a
ruleless label mapping (LM) between the source classes and the target classes.
Inspired by the above, we ask: How is LM interrelated with VP? And how to
exploit such a relationship to improve its accuracy on target tasks? We peer
into the influence of LM on VP and provide an affirmative answer that a better
'quality' of LM (assessed by mapping precision and explanation) can
consistently improve the effectiveness of VP. This is in contrast to the prior
art where the factor of LM was missing. To optimize LM, we propose a new VP
framework, termed ILM-VP (iterative label mapping-based visual prompting),
which automatically re-maps the source labels to the target labels and
progressively improves the target task accuracy of VP. Further, when using a
contrastive language-image pretrained (CLIP) model, we propose to integrate an
LM process to assist the text prompt selection of CLIP and to improve the
target task accuracy. Extensive experiments demonstrate that our proposal
significantly outperforms state-of-the-art VP methods. As highlighted below, we
show that when reprogramming an ImageNet-pretrained ResNet-18 to 13 target
tasks, our method outperforms baselines by a substantial margin, e.g., 7.9% and
6.7% accuracy improvements in transfer learning to the target Flowers102 and
CIFAR100 datasets. Besides, our proposal on CLIP-based VP provides 13.7% and
7.1% accuracy improvements on Flowers102 and DTD respectively. Our code is
available at https://github.com/OPTML-Group/ILM-VP.
- Abstract(参考訳): 我々は視覚タスクの入力プロンプト技術である視覚プロンプト(VP)を再検討し前進する。
VPは、(入力摂動パターンの観点で)普遍的なプロンプトを下流のデータポイントに組み込むことで、固定されたトレーニング済みのソースモデルをプログラムして、ターゲットドメインの下流タスクを達成できる。
しかし、なぜVPが、ソースクラスとターゲットクラスの間のルールレスラベルマッピング(LM)でさえ有効であるのかは、いまだ解明されていない。
LMはVPとどのように関連していますか?
そして、そのような関係を利用してターゲットタスクの精度を向上する方法。
我々は、LMがVPに与える影響を考察し、LMのより良い「品質」(マッピング精度と説明による評価)がVPの有効性を一貫して改善できるという肯定的な回答を提供する。
これは、LMの要素が欠落していた以前の技術とは対照的である。
LMを最適化するために、新たなVPフレームワークであるILM-VP(iterative label mapping-based visual prompting)を提案し、ソースラベルをターゲットラベルに自動的に再マップし、VPの目標タスク精度を徐々に改善する。
さらに,コントラッシブ言語画像事前訓練(CLIP)モデルを用いて,CLIPのテキスト選択を支援するためのLMプロセスの統合と,目標タスクの精度の向上を提案する。
広範な実験により,提案手法が最先端vp法を大きく上回ることを示した。
以下に示すように、ImageNet-pretrained ResNet-18を13のターゲットタスクに再プログラミングする場合、我々の手法はベースラインをかなり上回り、例えば、ターゲットのFlowers102とCIFAR100データセットへの変換学習の精度が7.9%と6.7%向上している。
さらに、CLIPベースのVPに関する提案では、Flowers102とDTDの精度がそれぞれ13.7%と7.1%向上している。
私たちのコードはhttps://github.com/OPTML-Group/ILM-VPで利用可能です。
関連論文リスト
- OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation [8.425690424016986]
視覚変換器(ViT)は、表現の学習において顕著な能力を示したが、未知の領域に適用した場合、その性能は損なわれる。
我々のアプローチであるOT-VP(Optimal Transport-guided Test-Time Visual Prompting)は、テスト時の迅速な学習を活用して、ターゲットドメインとソースドメインの整合を図り、これらの問題に対処する。
OT-VPは、学習したプロンプトトークンが4つしかなく、3つのスタイリスティックデータセットで最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2024-06-12T18:30:03Z) - AutoVP: An Automated Visual Prompting Framework and Benchmark [66.5618543577204]
ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために、事前訓練された視覚モデルを適用するための、パラメータ効率の高い微調整手法である。
本稿では,VP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと,12のダウンストリーム画像分類タスクを提案する。
実験の結果,AutoVPは,現在よく知られているVP手法よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T14:55:31Z) - ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。