Fugu-MT 論文翻訳(概要): AutoVP: An Automated Visual Prompting Framework and Benchmark

論文の概要: AutoVP: An Automated Visual Prompting Framework and Benchmark

arxiv url: http://arxiv.org/abs/2310.08381v1
Date: Thu, 12 Oct 2023 14:55:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 09:15:44.495285
Title: AutoVP: An Automated Visual Prompting Framework and Benchmark
Title（参考訳）: AutoVP: 自動Visual Promptingフレームワークとベンチマーク
Authors: Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen, Sijia Liu, Tsung-Yi Ho
Abstract要約: ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために、事前訓練された視覚モデルを適用するための、パラメータ効率の高い微調整手法である。本稿では,VP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと,12のダウンストリーム画像分類タスクを提案する。実験の結果,AutoVPは,現在よく知られているVP手法よりもかなり優れていることがわかった。
参考スコア（独自算出の注目度）: 66.5618543577204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual prompting (VP) is an emerging parameter-efficient fine-tuning approach to adapting pre-trained vision models to solve various downstream image-classification tasks. However, there has hitherto been little systematic study of the design space of VP and no clear benchmark for evaluating its performance. To bridge this gap, we propose AutoVP, an end-to-end expandable framework for automating VP design choices, along with 12 downstream image-classification tasks that can serve as a holistic VP-performance benchmark. Our design space covers 1) the joint optimization of the prompts; 2) the selection of pre-trained models, including image classifiers and text-image encoders; and 3) model output mapping strategies, including nonparametric and trainable label mapping. Our extensive experimental results show that AutoVP outperforms the best-known current VP methods by a substantial margin, having up to 6.7% improvement in accuracy; and attains a maximum performance increase of 27.5% compared to linear-probing (LP) baseline. AutoVP thus makes a two-fold contribution: serving both as an efficient tool for hyperparameter tuning on VP design choices, and as a comprehensive benchmark that can reasonably be expected to accelerate VP's development. The source code is available at https://github.com/IBM/AutoVP.
Abstract（参考訳）: ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために事前訓練された視覚モデルを適用するための、パラメータ効率の良い微調整手法である。しかし、VPの設計空間に関する体系的な研究はほとんどなく、その性能を評価するための明確なベンチマークも存在していない。このギャップを埋めるため、我々はVP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと、全体的なVPパフォーマンスベンチマークとして機能する12の下流画像分類タスクを提案する。私たちのデザインスペースは 1) プロンプトの合同最適化 2) 画像分類器及びテキスト画像エンコーダを含む事前訓練されたモデルの選定 3) 非パラメトリックおよびトレーニング可能なラベルマッピングを含むモデル出力マッピング戦略。大規模な実験結果から,AutoVPは最大6.7%の精度向上を実現し,リニア・プロブリング(LP)ベースラインに比べて最大27.5%の性能向上を達成した。 AutoVPは、VP設計選択におけるハイパーパラメータチューニングの効率的なツールとして機能し、VPの開発を加速することが合理的に期待できる包括的なベンチマークとして機能する。ソースコードはhttps://github.com/IBM/AutoVPで入手できる。

関連論文リスト

Visual Variational Autoencoder Prompt Tuning [20.387933505896388]
本稿では,動的に入力に依存したプロンプトを生成する新しいフレームワークであるV$2$APT(Visual Variational Autoencoder Prompt Tuning)を紹介する。 FGVC, HTA, VTAB-1kベンチマークの実験により, 提案手法は最先端PEFT法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-22T04:59:51Z)
Iterative Prompt Relocation for Distribution-Adaptive Visual Prompt Tuning [31.84894613827193]
本稿では,Nested Optimization の定式化に基づいて分散構造を適応的に調整する Pro-VPT (iterative Prompt RelOcation-based VPT) を提案する。 Pro-VPT は VPT を平均精度 1.6% で上回り、VTAB-1k ベンチマークの最先端性能へのプロンプトベースの手法を導いた。
論文参考訳（メタデータ） (2025-03-10T04:07:43Z)
Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes [70.08318779492944]
私たちは、より効果的なセグメンテーションのために消滅点(VP)を最初に利用しました。当社の新しいVSS用ネットワークであるVPSegには,この静的および動的VPプリエントを正確に利用する2つのモジュールが組み込まれています。
論文参考訳（メタデータ） (2024-01-27T01:01:58Z)
Facing the Elephant in the Room: Visual Prompt Tuning or Full Finetuning? [92.23438255540968]
Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。 19の異なるデータセットとタスクを包括的に分析します。本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
論文参考訳（メタデータ） (2024-01-23T16:48:18Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
VAD: Vectorized Scene Representation for Efficient Autonomous Driving [44.070636456960045]
VADは、自動運転のためのエンドツーエンドのベクトル化パラダイムである。 VADはベクトル化されたエージェントの動きを利用し、要素を明示的なインスタンスレベルの計画制約としてマップする。 VADは従来のエンドツーエンドの計画手法よりもはるかに高速に動作します。
論文参考訳（メタデータ） (2023-03-21T17:59:22Z)
Understanding and Improving Visual Prompting: A Label-Mapping Perspective [63.89295305670113]
我々は視覚タスクの入力プロンプト技術である視覚プロンプト(VP)を再検討し前進する。 ILM-VPと呼ばれる新しいVPフレームワークを提案し、ソースラベルをターゲットラベルに自動的に再マップする。提案手法は最先端のVP法よりも優れている。
論文参考訳（メタデータ） (2022-11-21T16:49:47Z)
Declaration-based Prompt Tuning for Visual Question Answering [16.688288454811016]
本稿では,DPT(Declaation-based Prompt Tuning)と呼ばれる,革新的なビジュアル言語(VL)ファインチューニングパラダイムを提案する。 DPTは、VQAモデルの事前学習と微調整の目的を共同で最適化し、事前学習されたVLモデルの下流タスクへの効果的な適応を促進する。 GQAデータセットの実験結果によると、DPTは完全な教師付き(2.68%)とゼロショット/フェーショット(31%以上)の両方で精度に大きな差で微調整されたデータセットよりも優れていた。
論文参考訳（メタデータ） (2022-05-05T05:56:55Z)
Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文参考訳（メタデータ） (2021-11-23T11:35:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。