論文の概要: ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.06838v1
- Date: Wed, 09 Apr 2025 12:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:07.396018
- Title: ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models
- Title(参考訳): ZIP:ブラックボックスビジョンランゲージモデルのための効率的なゼロオーダープロンプトチューニング
- Authors: Seonghwan Park, Jaehyeon Jeong, Yongjun Kim, Jaeho Lee, Namhoon Lee,
- Abstract要約: そこで本研究では,ゼロ階内在次元のプロンプトチューニングを提案し,ブラックボックス設定で高速かつロバストなプロンプト最適化を実現する。
標準ベンチマークで13以上の視覚言語タスクに対するZIPを評価し, 精度が約6%向上し, クエリ効率が48%向上したことを示す。
- 参考スコア(独自算出の注目度): 14.137615267026755
- License:
- Abstract: Recent studies have introduced various approaches for prompt-tuning black-box vision-language models, referred to as black-box prompt-tuning (BBPT). While BBPT has demonstrated considerable potential, it is often found that many existing methods require an excessive number of queries (i.e., function evaluations), which poses a significant challenge in real-world scenarios where the number of allowed queries is limited. To tackle this issue, we propose Zeroth-order Intrinsic-dimensional Prompt-tuning (ZIP), a novel approach that enables efficient and robust prompt optimization in a purely black-box setting. The key idea of ZIP is to reduce the problem dimensionality and the variance of zeroth-order gradient estimates, such that the training is done fast with far less queries. We achieve this by re-parameterizing prompts in low-rank representations and designing intrinsic-dimensional clipping of estimated gradients. We evaluate ZIP on 13+ vision-language tasks in standard benchmarks and show that it achieves an average improvement of approximately 6% in few-shot accuracy and 48% in query efficiency compared to the best-performing alternative BBPT methods, establishing a new state of the art. Our ablation analysis further shows that the proposed clipping mechanism is robust and nearly optimal, without the need to manually select the clipping threshold, matching the result of expensive hyperparameter search.
- Abstract(参考訳): 最近の研究は、ブラックボックス・プロンプトチューニング(BBPT)と呼ばれる、プロンプトチューニングのブラックボックス・ビジョン言語モデルに様々なアプローチを導入している。
BBPTはかなりの可能性を示しているが、多くの既存手法では過剰な数のクエリ(すなわち関数評価)を必要とすることがしばしば見出され、許容されるクエリの数が限られている現実のシナリオでは大きな課題となる。
そこで本研究では,ゼロ次固有次元プロンプトチューニング(ZIP)を提案する。
ZIPの鍵となる考え方は、問題次元とゼロ階勾配推定のばらつきを減らし、訓練をはるかに少ないクエリで高速に行うことである。
低ランク表現におけるプロンプトを再パラメータ化し、推定勾配の固有次元クリッピングを設計することでこれを実現できる。
標準ベンチマークで13以上の視覚言語タスクに対するZIPの評価を行い、最も優れた代替BBPT法と比較して、ショット精度が約6%向上し、クエリ効率が48%向上し、新しい最先端技術が確立されたことを示す。
アブレーション解析により,提案したクリッピング機構は,手動でクリッピングしきい値を選択することなく,高コストなハイパーパラメータサーチの結果と一致することなく,頑健でほぼ最適であることが示された。
関連論文リスト
- Hyperband-based Bayesian Optimization for Black-box Prompt Selection [15.756224286651237]
下流タスクにおける大規模言語モデル(LLM)のパフォーマンスを最大化するためには、最適なプロンプト選択が不可欠である。
我々は、ブラックボックスプロンプト選択のための新しいハイパバンドベースのベイズ最適化手法であるHbBoPsを紹介する。
提案手法では,マルチファイダリティスケジューラとしてHyperbandを用いて,構造を意識したディープカーネルガウス処理を用いて,プロンプト性能をモデル化する。
論文 参考訳(メタデータ) (2024-12-10T14:42:51Z) - STBA: Towards Evaluating the Robustness of DNNs for Query-Limited Black-box Scenario [50.37501379058119]
本研究では,クエリ制限シナリオにおいて,悪意のある逆の例を作成するために,空間変換ブラックボックス攻撃(STBA)を提案する。
そこで本研究では,STBAが対向例の認識不能性を効果的に改善し,クエリ制限条件下での攻撃成功率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-03-30T13:28:53Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent
for Few-Shot Learning [83.26610968655815]
Black-Box Tuningは、言語モデルの入力に先立って、連続的なプロンプトトークンを最適化するためのデリバティブフリーなアプローチである。
BBTv2は、言語モデルをグラデーションベースの最適化に匹敵する結果を得るために駆動する、純粋なブラックボックス最適化手法である。
論文 参考訳(メタデータ) (2022-05-23T11:10:19Z) - Learning How to Optimize Black-Box Functions With Extreme Limits on the
Number of Function Evaluations [3.0969191504482243]
ブラックボックス最適化では,約100桁の関数評価が極めて限られた数しか手頃な価格で行われない。
本稿では,確立された手法を用いて各バッチの点集合を提案し,これらの候補点から,並列に実行できる試行回数をダウンセレクトする手法を提案する。
我々は、正規化コストの平均50%の削減を達成し、これは非常に大きな性能改善である。
論文 参考訳(メタデータ) (2021-03-18T15:30:15Z) - Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization [45.22093693422085]
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
論文 参考訳(メタデータ) (2021-03-04T09:15:08Z) - Projection & Probability-Driven Black-Box Attack [205.9923346080908]
既存のブラックボックス攻撃は、高次元空間における過剰なクエリを必要とする。
本稿では,この問題を解決するために,プロジェクション&確率駆動型ブラックボックス攻撃(PPBA)を提案する。
我々の手法は、最先端の手法に比べて攻撃成功率の高いクエリを少なくとも24%削減する必要がある。
論文 参考訳(メタデータ) (2020-05-08T03:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。