論文の概要: BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent
for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2205.11200v1
- Date: Mon, 23 May 2022 11:10:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:19:30.401994
- Title: BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent
for Few-Shot Learning
- Title(参考訳): BBTv2: 純粋なブラックボックス最適化は、Few-Shot LearningのためのグラディエントDescentと比較できる
- Authors: Tianxiang Sun, Zhengfu He, Hong Qian, Xuanjing Huang, Xipeng Qiu
- Abstract要約: Black-Box Tuningは、言語モデルの入力に先立って、連続的なプロンプトトークンを最適化するためのデリバティブフリーなアプローチである。
BBTv2は、言語モデルをグラデーションベースの最適化に匹敵する結果を得るために駆動する、純粋なブラックボックス最適化手法である。
- 参考スコア(独自算出の注目度): 83.26610968655815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Black-Box Tuning (BBT) is a derivative-free approach to optimize continuous
prompt tokens prepended to the input of language models. Although BBT has
achieved comparable performance to full model tuning on simple classification
tasks under few-shot settings, it requires pre-trained prompt embedding to
match model tuning on hard tasks (e.g., entailment tasks), and therefore does
not completely get rid of the dependence on gradients. In this paper we present
BBTv2, a pure black-box optimization approach that can drive language models to
achieve comparable results to gradient-based optimization. In particular, we
prepend continuous prompt tokens to every layer of the language model and
propose a divide-and-conquer algorithm to alternately optimize the prompt
tokens at different layers. For the optimization at each layer, we perform
derivative-free optimization in a low-dimensional subspace, which is then
randomly projected to the original prompt parameter space. Experimental results
show that BBTv2 not only outperforms BBT by a large margin, but also achieves
comparable or even better performance than full model tuning and
state-of-the-art parameter-efficient methods (e.g., Adapter, LoRA, BitFit,
etc.) under few-shot learning settings, while maintaining much fewer tunable
parameters.
- Abstract(参考訳): black-box tuning (bbt) は、言語モデルの入力に先立つ継続的プロンプトトークンを最適化するためのデリバティブフリーなアプローチである。
bbtは単純な分類タスクのフルモデルチューニングと同等の性能を達成しているが、ハードタスク(例えば、関連するタスク)のモデルチューニングとマッチングするために、事前訓練されたプロンプト埋め込みが必要であるため、勾配への依存を完全に取り除くことはできない。
本稿では,グラデーションに基づく最適化に匹敵する結果を達成するために,言語モデルを駆動する純粋なブラックボックス最適化手法であるbbtv2を提案する。
特に,言語モデルのすべての層に連続的なプロンプトトークンをプリペイドし,異なる層におけるプロンプトトークンを交互に最適化する分割・コンカーアルゴリズムを提案する。
各層での最適化のために、低次元部分空間において微分自由最適化を行い、元のプロンプトパラメータ空間にランダムに投影する。
実験結果から、BBTv2はBBTを大きなマージンで上回るだけでなく、フルモデルチューニングや最先端のパラメータ効率メソッド(Adapter、LoRA、BitFitなど)よりもはるかに少ないチューニング可能なパラメータを保ちながら、BBTよりも優れたパフォーマンスを実現していることがわかった。
関連論文リスト
- Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - Multi-fidelity Constrained Optimization for Stochastic Black Box
Simulators [1.6385815610837167]
上記の問題に対処するために、Scout-Nd (Stochastic Constrained Optimization for N dimensions) アルゴリズムを導入する。
Scout-Ndは効率よく勾配を推定し、推定器勾配のノイズを低減し、計算労力をさらに削減するために多重忠実性スキームを適用する。
提案手法を標準ベンチマークで検証し,既存の手法よりも優れた性能を示すパラメータの最適化の有効性を示す。
論文 参考訳(メタデータ) (2023-11-25T23:36:38Z) - Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model
Fine-tuning [32.84435258519842]
ゲート機構により,粒度の細かいトークンレベルと粗い層レベルの両方でプレフィックスを調整できる適応型プリフィックスチューニング(APT)を提案する。
SuperGLUEとNERデータセットの実験は、APTの有効性を示している。
論文 参考訳(メタデータ) (2023-05-24T14:51:01Z) - Make Prompt-based Black-Box Tuning Colorful: Boosting Model Generalization from Three Orthogonal Perspectives [28.138689389803034]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクのパワーを増大させている。
勾配や隠れ表現にアクセスせずにタスク固有のプロンプトを最適化することで、この問題に対処するためにブラックボックスチューニングが提案されている。
BBT-RGBは,ブラックボックス最適化の効率化と性能向上のための,単純かつ補完的な手法のスイートである。
論文 参考訳(メタデータ) (2023-05-14T07:33:59Z) - Trainable Projected Gradient Method for Robust Fine-tuning [36.470333094917436]
本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
論文 参考訳(メタデータ) (2023-03-19T17:30:44Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Prefix-Tuning: Optimizing Continuous Prompts for Generation [85.6357778621526]
微調整は、大規模な事前訓練された言語モデルを使用して下流のタスクを実行する事実上の方法です。
自然言語生成タスクの微調整に代わる軽量なプレフィックスチューニングを提案する。
パラメータの0.1%しか学習しないことで、プレフィックスチューニングは完全なデータ設定で同等のパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-01-01T08:00:36Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。