論文の概要: Robust Adaptation of Foundation Models with Black-Box Visual Prompting
- arxiv url: http://arxiv.org/abs/2407.17491v1
- Date: Thu, 4 Jul 2024 02:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-28 17:59:54.692680
- Title: Robust Adaptation of Foundation Models with Black-Box Visual Prompting
- Title(参考訳): Black-Box Visual Promptingによる基礎モデルのロバスト適応
- Authors: Changdae Oh, Gyeongdeok Seo, Geunyoung Jung, Zhi-Qi Cheng, Hosik Choi, Jiyoung Jung, Kyungwoo Song,
- Abstract要約: 本研究は,大規模事前学習モデル (PTM) を効率的に適応するブラックボックス視覚プロンプト (Black-box visual prompting, BlackVIP) を提案する。
BlackVIPは、(1)座標と(2)勾配補正による同時近似(SPSA-GC)の2つの成分を持つ。
19のデータセットの実験では、BlackVIPは、最小限のメモリ要件で、さまざまなドメインやタスクへの堅牢な適応を可能にすることが示されている。
- 参考スコア(独自算出の注目度): 18.192496572620424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the surge of large-scale pre-trained models (PTMs), adapting these models to numerous downstream tasks becomes a crucial problem. Consequently, parameter-efficient transfer learning (PETL) of large models has grasped huge attention. While PETL methods show impressive performance, they commonly rely on two optimistic assumptions: 1) the entire parameters of a PTM are available, and 2) a sufficiently large memory capacity is equipped for caching all the intermediate activations to compute gradients. However, in most real-world applications, PTMs are served as black-box APIs or proprietary software without explicit parameter accessibility. Besides, it is hard to meet a large memory requirement for modern PTMs. This work proposes black-box visual prompting (BlackVIP), which efficiently adapts the PTMs without knowledge about model architectures and parameters. BlackVIP has two components; 1) Coordinator and 2) simultaneous perturbation stochastic approximation with gradient correction (SPSA-GC). The Coordinator designs input-dependent visual prompts, which allow the target PTM to adapt in the wild. SPSA-GC efficiently estimates the gradient of PTM to update the Coordinator. Besides, we propose a variant, BlackVIP-SE, which significantly reduces the runtime and computational cost of BlackVIP. Extensive experiments on 19 datasets demonstrate that BlackVIPs enable robust adaptation to diverse domains and tasks with minimal memory requirements. We further provide theoretical analysis on the generalization of visual prompting methods by presenting their connection to the certified robustness of randomized smoothing.
- Abstract(参考訳): 大規模事前学習モデル(PTM)の急増に伴い、これらのモデルを多くの下流タスクに適応させることが重要な問題となっている。
その結果,大規模モデルのパラメータ効率変換学習(PETL)に大きな注目を集めた。
PETL法は優れた性能を示すが、概して2つの楽観的な仮定に依存している。
1) PTM の全パラメータが利用可能であり、
2) 中間活性化を全てキャッシュして勾配を計算するのに十分なメモリ容量が確保される。
しかし、現実世界のほとんどのアプリケーションでは、PTMは明確なパラメータアクセシビリティを持たないブラックボックスAPIやプロプライエタリなソフトウェアとして機能する。
また、現代のPTMにおいて大きなメモリ要件を満たすことは困難である。
本研究は,モデルアーキテクチャやパラメータを知らずに効率的にPTMを適応するブラックボックスビジュアルプロンプト (Black-box visual prompting, BlackVIP) を提案する。
BlackVIPには2つのコンポーネントがある。
1)コーディネータと
2) 傾斜補正 (SPSA-GC) を併用した同時摂動確率近似を行った。
コーディネーターは入力依存の視覚プロンプトを設計し、ターゲットのPTMが野生に適応できるようにする。
SPSA-GC はコーディネータを更新するために PTM の勾配を効率的に推定する。
さらに,BlackVIPのランタイムと計算コストを大幅に削減する変種BlackVIP-SEを提案する。
19のデータセットに対する大規模な実験により、BlackVIPは、最小限のメモリ要件で、多様なドメインやタスクへの堅牢な適応を可能にすることが示された。
さらに,視覚的プロンプト法の一般化に関する理論的解析を行い,ランダム化スムーシングの信頼性の高いロバスト性への関連性を示す。
関連論文リスト
- Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models [62.838689691468666]
我々は,各ローカルデータセットを最適に活用するためのフェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。
Fed-BBPTは、ローカルユーザーがレギュラーアグリゲーションを通じてプロンプトジェネレータを協調的に訓練するのを支援する中央サーバーに重点を置いている。
大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリの課題を、十分にサイドステップで解決している。
論文 参考訳(メタデータ) (2023-10-04T19:30:49Z) - BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning [10.351343954359677]
BlackVIPは、最小限のメモリ要件で、PTMのパラメータにアクセスすることなく、多様なドメインへの堅牢な適応を可能にする。
16のデータセットの実験では、最小限のメモリ要件で、PTMのパラメータにアクセスすることなく、BlackVIPが多様なドメインへの堅牢な適応を可能にすることが示されている。
論文 参考訳(メタデータ) (2023-03-26T16:42:05Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - Black-Box Tuning for Language-Model-as-a-Service [85.2210372920386]
この研究は、デリバティブフリーアルゴリズムによってPTMを最適化するBlack-Box Tuningを提案する。
特に,PTM推論APIを反復的に呼び出すことで,入力テキストに既定の連続的なプロンプトを最適化するためにCMA-ESを起動する。
実験の結果,数個のラベル付きサンプル上でのRoBERTaを用いたブラックボックスチューニングは,手動のプロンプトやGPT-3のテキスト内学習に優れるだけでなく,勾配に基づく学習よりも優れていた。
論文 参考訳(メタデータ) (2022-01-10T18:17:05Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。