論文の概要: BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning
- arxiv url: http://arxiv.org/abs/2303.14773v2
- Date: Sat, 8 Jul 2023 12:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 18:46:32.560354
- Title: BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning
- Title(参考訳): BlackVIP:ロバストトランスファー学習のためのブラックボックスビジュアルプロンプト
- Authors: Changdae Oh, Hyeji Hwang, Hee-young Lee, YongTaek Lim, Geunyoung Jung,
Jiyoung Jung, Hosik Choi, Kyungwoo Song
- Abstract要約: BlackVIPは、最小限のメモリ要件で、PTMのパラメータにアクセスすることなく、多様なドメインへの堅牢な適応を可能にする。
16のデータセットの実験では、最小限のメモリ要件で、PTMのパラメータにアクセスすることなく、BlackVIPが多様なドメインへの堅牢な適応を可能にすることが示されている。
- 参考スコア(独自算出の注目度): 10.351343954359677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the surge of large-scale pre-trained models (PTMs), fine-tuning these
models to numerous downstream tasks becomes a crucial problem. Consequently,
parameter efficient transfer learning (PETL) of large models has grasped huge
attention. While recent PETL methods showcase impressive performance, they rely
on optimistic assumptions: 1) the entire parameter set of a PTM is available,
and 2) a sufficiently large memory capacity for the fine-tuning is equipped.
However, in most real-world applications, PTMs are served as a black-box API or
proprietary software without explicit parameter accessibility. Besides, it is
hard to meet a large memory requirement for modern PTMs. In this work, we
propose black-box visual prompting (BlackVIP), which efficiently adapts the
PTMs without knowledge about model architectures and parameters. BlackVIP has
two components; 1) Coordinator and 2) simultaneous perturbation stochastic
approximation with gradient correction (SPSA-GC). The Coordinator designs
input-dependent image-shaped visual prompts, which improves few-shot adaptation
and robustness on distribution/location shift. SPSA-GC efficiently estimates
the gradient of a target model to update Coordinator. Extensive experiments on
16 datasets demonstrate that BlackVIP enables robust adaptation to diverse
domains without accessing PTMs' parameters, with minimal memory requirements.
Code: \url{https://github.com/changdaeoh/BlackVIP}
- Abstract(参考訳): 大規模事前学習モデル(PTM)の急増に伴い、これらのモデルを多くの下流タスクに微調整することが重要な問題となっている。
その結果,大規模モデルのパラメータ効率のよい伝達学習 (PETL) が注目されている。
最近のPETL法は素晴らしい性能を示しているが、楽観的な仮定に依存している。
1) PTM のパラメータ全体のセットが利用可能で、
2)微調整のための十分な大きなメモリ容量を備える。
しかしながら、現実世界のほとんどのアプリケーションでは、PTMは明確なパラメータアクセシビリティを持たないブラックボックスAPIまたはプロプライエタリなソフトウェアとして提供される。
また、現代のPTMにおいて大きなメモリ要件を満たすことは困難である。
本研究では,モデルアーキテクチャやパラメータの知識のないPTMを効率的に適応するブラックボックスビジュアルプロンプト(BlackVIP)を提案する。
BlackVIPには2つのコンポーネントがある。
1)コーディネーター及び
2) 傾斜補正を伴う同時摂動確率近似(SPSA-GC)。
コーディネーターは入力に依存した画像形状の視覚的プロンプトを設計し、分散/位置シフトに対するわずかな適応とロバスト性を改善する。
SPSA-GCは、コーディネータを更新するターゲットモデルの勾配を効率的に推定する。
16のデータセットに対する大規模な実験では、最小限のメモリ要件で、PTMのパラメータにアクセスすることなく、BlackVIPが多様なドメインへの堅牢な適応を可能にすることが示されている。
コード: \url{https://github.com/changdaeoh/BlackVIP}
関連論文リスト
- BitDelta: Your Fine-Tune May Only Be Worth One Bit [60.44468282930883]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。
我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。
複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文 参考訳(メタデータ) (2024-02-15T18:50:06Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - PAD: Self-Supervised Pre-Training with Patchwise-Scale Adapter for
Infrared Images [45.507517332100804]
RGB画像に対する自己教師付き学習(SSL)は大きな成功を収めているが、赤外線画像に対するSSLの研究は限られている。
一般的な事前トレーニングタスクを描画する非非同期赤外線画像は、効果が低い。
きめ細かいテクスチャの不足は、一般的な画像の特徴を学ぶのを特に困難にしている。
論文 参考訳(メタデータ) (2023-12-13T14:57:28Z) - Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models [62.838689691468666]
我々は,各ローカルデータセットを最適に活用するためのフェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。
Fed-BBPTは、ローカルユーザーがレギュラーアグリゲーションを通じてプロンプトジェネレータを協調的に訓練するのを支援する中央サーバーに重点を置いている。
大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリの課題を、十分にサイドステップで解決している。
論文 参考訳(メタデータ) (2023-10-04T19:30:49Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - Consolidator: Mergeable Adapter with Grouped Connections for Visual
Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。
調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。
我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文 参考訳(メタデータ) (2023-04-30T23:59:02Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z) - Black-Box Tuning for Language-Model-as-a-Service [85.2210372920386]
この研究は、デリバティブフリーアルゴリズムによってPTMを最適化するBlack-Box Tuningを提案する。
特に,PTM推論APIを反復的に呼び出すことで,入力テキストに既定の連続的なプロンプトを最適化するためにCMA-ESを起動する。
実験の結果,数個のラベル付きサンプル上でのRoBERTaを用いたブラックボックスチューニングは,手動のプロンプトやGPT-3のテキスト内学習に優れるだけでなく,勾配に基づく学習よりも優れていた。
論文 参考訳(メタデータ) (2022-01-10T18:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。