論文の概要: AutoVP: An Automated Visual Prompting Framework and Benchmark
- arxiv url: http://arxiv.org/abs/2310.08381v2
- Date: Sun, 10 Mar 2024 19:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:49:47.318564
- Title: AutoVP: An Automated Visual Prompting Framework and Benchmark
- Title(参考訳): AutoVP: 自動Visual Promptingフレームワークとベンチマーク
- Authors: Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen, Sijia Liu, Tsung-Yi Ho
- Abstract要約: ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために、事前訓練された視覚モデルを適用するための、パラメータ効率の高い微調整手法である。
本稿では,VP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと,12のダウンストリーム画像分類タスクを提案する。
実験の結果,AutoVPは,現在よく知られているVP手法よりもかなり優れていることがわかった。
- 参考スコア(独自算出の注目度): 66.5618543577204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual prompting (VP) is an emerging parameter-efficient fine-tuning approach
to adapting pre-trained vision models to solve various downstream
image-classification tasks. However, there has hitherto been little systematic
study of the design space of VP and no clear benchmark for evaluating its
performance. To bridge this gap, we propose AutoVP, an end-to-end expandable
framework for automating VP design choices, along with 12 downstream
image-classification tasks that can serve as a holistic VP-performance
benchmark. Our design space covers 1) the joint optimization of the prompts; 2)
the selection of pre-trained models, including image classifiers and text-image
encoders; and 3) model output mapping strategies, including nonparametric and
trainable label mapping. Our extensive experimental results show that AutoVP
outperforms the best-known current VP methods by a substantial margin, having
up to 6.7% improvement in accuracy; and attains a maximum performance increase
of 27.5% compared to linear-probing (LP) baseline. AutoVP thus makes a two-fold
contribution: serving both as an efficient tool for hyperparameter tuning on VP
design choices, and as a comprehensive benchmark that can reasonably be
expected to accelerate VP's development. The source code is available at
https://github.com/IBM/AutoVP.
- Abstract(参考訳): ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために事前訓練された視覚モデルを適用するための、パラメータ効率の良い微調整手法である。
しかし、VPの設計空間に関する体系的な研究はほとんどなく、その性能を評価するための明確なベンチマークも存在していない。
このギャップを埋めるため、我々はVP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと、全体的なVPパフォーマンスベンチマークとして機能する12の下流画像分類タスクを提案する。
私たちのデザインスペースは
1) プロンプトの合同最適化
2) 画像分類器及びテキスト画像エンコーダを含む事前訓練されたモデルの選定
3) 非パラメトリックおよびトレーニング可能なラベルマッピングを含むモデル出力マッピング戦略。
大規模な実験結果から,AutoVPは最大6.7%の精度向上を実現し,リニア・プロブリング(LP)ベースラインに比べて最大27.5%の性能向上を達成した。
AutoVPは、VP設計選択におけるハイパーパラメータチューニングの効率的なツールとして機能し、VPの開発を加速することが合理的に期待できる包括的なベンチマークとして機能する。
ソースコードはhttps://github.com/IBM/AutoVPで入手できる。
関連論文リスト
- Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes [70.08318779492944]
私たちは、より効果的なセグメンテーションのために消滅点(VP)を最初に利用しました。
当社の新しいVSS用ネットワークであるVPSegには,この静的および動的VPプリエントを正確に利用する2つのモジュールが組み込まれています。
論文 参考訳(メタデータ) (2024-01-27T01:01:58Z) - Facing the Elephant in the Room: Visual Prompt Tuning or Full
Finetuning? [92.23438255540968]
Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。
19の異なるデータセットとタスクを包括的に分析します。
本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-01-23T16:48:18Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - VAD: Vectorized Scene Representation for Efficient Autonomous Driving [44.070636456960045]
VADは、自動運転のためのエンドツーエンドのベクトル化パラダイムである。
VADはベクトル化されたエージェントの動きを利用し、要素を明示的なインスタンスレベルの計画制約としてマップする。
VADは従来のエンドツーエンドの計画手法よりもはるかに高速に動作します。
論文 参考訳(メタデータ) (2023-03-21T17:59:22Z) - Understanding and Improving Visual Prompting: A Label-Mapping
Perspective [63.89295305670113]
我々は視覚タスクの入力プロンプト技術である視覚プロンプト(VP)を再検討し前進する。
ILM-VPと呼ばれる新しいVPフレームワークを提案し、ソースラベルをターゲットラベルに自動的に再マップする。
提案手法は最先端のVP法よりも優れている。
論文 参考訳(メタデータ) (2022-11-21T16:49:47Z) - Declaration-based Prompt Tuning for Visual Question Answering [16.688288454811016]
本稿では,DPT(Declaation-based Prompt Tuning)と呼ばれる,革新的なビジュアル言語(VL)ファインチューニングパラダイムを提案する。
DPTは、VQAモデルの事前学習と微調整の目的を共同で最適化し、事前学習されたVLモデルの下流タスクへの効果的な適応を促進する。
GQAデータセットの実験結果によると、DPTは完全な教師付き(2.68%)とゼロショット/フェーショット(31%以上)の両方で精度に大きな差で微調整されたデータセットよりも優れていた。
論文 参考訳(メタデータ) (2022-05-05T05:56:55Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。