論文の概要: Robust Adaptation of Foundation Models with Black-Box Visual Prompting
- arxiv url: http://arxiv.org/abs/2407.17491v2
- Date: Sat, 31 May 2025 23:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.880185
- Title: Robust Adaptation of Foundation Models with Black-Box Visual Prompting
- Title(参考訳): Black-Box Visual Promptingによる基礎モデルのロバスト適応
- Authors: Changdae Oh, Gyeongdeok Seo, Geunyoung Jung, Zhi-Qi Cheng, Hosik Choi, Jiyoung Jung, Kyungwoo Song,
- Abstract要約: BlackVIPは計算やパラメータを知らずにPTMを効率的に適応する。
19のデータセットの実験では、BlackVIPは、最小限のメモリ要件で、さまざまなドメインやタスクへの堅牢な適応を可能にすることが示されている。
- 参考スコア(独自算出の注目度): 18.192496572620424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With a surge of large-scale pre-trained models, parameter-efficient transfer learning (PETL) of large models has garnered significant attention. While promising, they commonly rely on two optimistic assumptions: 1) full access to the parameters of a PTM, and 2) sufficient memory capacity to cache all intermediate activations for gradient computation. However, in most real-world applications, PTMs serve as black-box APIs or proprietary software without full parameter accessibility. Besides, it is hard to meet a large memory requirement for modern PTMs. This work proposes black-box visual prompting (BlackVIP), which efficiently adapts the PTMs without knowledge of their architectures or parameters. BlackVIP has two components: 1) Coordinator and 2) simultaneous perturbation stochastic approximation with gradient correction (SPSA-GC). The Coordinator designs input-dependent visual prompts, which allow the target PTM to adapt in the wild. SPSA-GC efficiently estimates the gradient of PTM to update Coordinator. Besides, we introduce a variant, BlackVIP-SE, which significantly reduces the runtime and computational cost of BlackVIP. Extensive experiments on 19 datasets demonstrate that BlackVIPs enable robust adaptation to diverse domains and tasks with minimal memory requirements. We further provide a theoretical analysis on the generalization of visual prompting methods by presenting their connection to the certified robustness of randomized smoothing, and presenting an empirical support for improved robustness.
- Abstract(参考訳): 大規模事前学習モデルの増加に伴い,大規模モデルのパラメータ効率変換学習(PETL)が注目されている。
期待されているが、彼らは一般的に2つの楽観的な仮定に依存している。
1) PTM のパラメータへの完全なアクセス、及び
2) グラデーション計算のためにすべての中間活性化をキャッシュするのに十分なメモリ容量。
しかしながら、現実世界のほとんどのアプリケーションでは、PTMは完全なパラメータアクセシビリティを持たないブラックボックスAPIやプロプライエタリなソフトウェアとして機能する。
また、現代のPTMにおいて大きなメモリ要件を満たすことは困難である。
この研究はブラックボックス・ビジュアル・プロンプト (Black-box visual prompting, BlackVIP) を提案する。
BlackVIPには2つのコンポーネントがある。
1)コーディネータと
2) 傾斜補正 (SPSA-GC) を併用した同時摂動確率近似を行った。
コーディネーターは入力依存の視覚プロンプトを設計し、ターゲットのPTMが野生に適応できるようにする。
SPSA-GC はコーディネータを更新するための PTM の勾配を効率的に推定する。
さらに,BlackVIPのランタイムと計算コストを大幅に削減する変種BlackVIP-SEを導入する。
19のデータセットに対する大規模な実験により、BlackVIPは、最小限のメモリ要件で、多様なドメインやタスクへの堅牢な適応を可能にすることが示された。
さらに、ランダム化スムースメントの証明されたロバスト性への接続を提示し、ロバスト性を改善するための実証的支援を提示することにより、視覚的プロンプト手法の一般化に関する理論的分析を行う。
関連論文リスト
- Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences [49.14535254003683]
本稿では,機械学習におけるマルチタスクトレードオフに対処するパラメータ効率の高い新しい手法PaLoRAを紹介する。
実験の結果、PaLoRAは様々なデータセットで最先端のMTLとPFLのベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-10T21:25:51Z) - Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models [62.838689691468666]
我々は,各ローカルデータセットを最適に活用するためのフェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。
Fed-BBPTは、ローカルユーザーがレギュラーアグリゲーションを通じてプロンプトジェネレータを協調的に訓練するのを支援する中央サーバーに重点を置いている。
大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリの課題を、十分にサイドステップで解決している。
論文 参考訳(メタデータ) (2023-10-04T19:30:49Z) - BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning [10.351343954359677]
BlackVIPは、最小限のメモリ要件で、PTMのパラメータにアクセスすることなく、多様なドメインへの堅牢な適応を可能にする。
16のデータセットの実験では、最小限のメモリ要件で、PTMのパラメータにアクセスすることなく、BlackVIPが多様なドメインへの堅牢な適応を可能にすることが示されている。
論文 参考訳(メタデータ) (2023-03-26T16:42:05Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - Black-Box Tuning for Language-Model-as-a-Service [85.2210372920386]
この研究は、デリバティブフリーアルゴリズムによってPTMを最適化するBlack-Box Tuningを提案する。
特に,PTM推論APIを反復的に呼び出すことで,入力テキストに既定の連続的なプロンプトを最適化するためにCMA-ESを起動する。
実験の結果,数個のラベル付きサンプル上でのRoBERTaを用いたブラックボックスチューニングは,手動のプロンプトやGPT-3のテキスト内学習に優れるだけでなく,勾配に基づく学習よりも優れていた。
論文 参考訳(メタデータ) (2022-01-10T18:17:05Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。