論文の概要: Sample-Efficient Optimisation with Probabilistic Transformer Surrogates
- arxiv url: http://arxiv.org/abs/2205.13902v2
- Date: Mon, 30 May 2022 08:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 11:39:45.413881
- Title: Sample-Efficient Optimisation with Probabilistic Transformer Surrogates
- Title(参考訳): 確率変換器サロゲートを用いたサンプル効率最適化
- Authors: Alexandre Maraval, Matthieu Zimmer, Antoine Grosnit, Rasul Tutunov,
Jun Wang, Haitham Bou Ammar
- Abstract要約: 本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
- 参考スコア(独自算出の注目度): 66.98962321504085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Faced with problems of increasing complexity, recent research in Bayesian
Optimisation (BO) has focused on adapting deep probabilistic models as flexible
alternatives to Gaussian Processes (GPs). In a similar vein, this paper
investigates the feasibility of employing state-of-the-art probabilistic
transformers in BO. Upon further investigation, we observe two drawbacks
stemming from their training procedure and loss definition, hindering their
direct deployment as proxies in black-box optimisation. First, we notice that
these models are trained on uniformly distributed inputs, which impairs
predictive accuracy on non-uniform data - a setting arising from any typical BO
loop due to exploration-exploitation trade-offs. Second, we realise that
training losses (e.g., cross-entropy) only asymptotically guarantee accurate
posterior approximations, i.e., after arriving at the global optimum, which
generally cannot be ensured. At the stationary points of the loss function,
however, we observe a degradation in predictive performance especially in
exploratory regions of the input space. To tackle these shortcomings we
introduce two components: 1) a BO-tailored training prior supporting
non-uniformly distributed points, and 2) a novel approximate posterior
regulariser trading-off accuracy and input sensitivity to filter favourable
stationary points for improved predictive performance. In a large panel of
experiments, we demonstrate, for the first time, that one transformer
pre-trained on data sampled from random GP priors produces competitive results
on 16 benchmark black-boxes compared to GP-based BO. Since our model is only
pre-trained once and used in all tasks without any retraining and/or
fine-tuning, we report an order of magnitude time-reduction, while matching and
sometimes outperforming GPs.
- Abstract(参考訳): 複雑性の増大に直面した最近のベイズ最適化(BO)の研究は、ガウス過程(GP)の柔軟な代替品として深い確率モデルを適応することに焦点を当てている。
そこで本研究では,BOにおける最先端確率変換器の適用可能性について検討する。
さらに,トレーニング手順と損失定義から生じる2つの欠点を観察し,ブラックボックス最適化のプロキシとして直接展開することを妨げた。
まず、これらのモデルが均一に分散した入力に基づいてトレーニングされていることに気付き、これは非一様データ - 探索と探索のトレードオフに起因する典型的なboループから生じる設定 - の予測精度を損なう。
第2に、トレーニング損失(例えば、クロスエントロピー)は、一般的に保証できないグローバルな最適点に到着した後、正確に後部近似を漸近的に保証することのみに気づく。
しかし、損失関数の定常点において、特に入力空間の探索領域における予測性能の劣化を観察する。
これらの欠点に対処するために2つのコンポーネントを紹介します。
1)一様でない分散点を支持する前のBO調整訓練
2) 予測性能を向上させるため, 最適定常点をフィルタする新規な後続正則トレードオフ精度と入力感度について検討した。
実験の大規模なパネルでは、ランダムなGP先行データから事前学習した1つのトランスフォーマーが、GPベースBOと比較して16個のベンチマークブラックボックス上で競合する結果が得られることを示した。
我々のモデルは1回だけ事前訓練され、リトレーニングや微調整をせずに全てのタスクで使用されるので、GPのマッチングや性能を向上しながら、桁違いの時間短縮を報告します。
関連論文リスト
- Robust Bayesian Optimization via Localized Online Conformal Prediction [37.549297668783254]
局所化オンライン共形予測に基づくベイズ最適化(LOCBO)を導入する。
LOCBOは局所オンライン共形予測(CP)によりGPモデルを校正する
観測対象関数を保留するLOCBOのイテレートについて理論的性能保証を行う。
論文 参考訳(メタデータ) (2024-11-26T12:45:54Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Statistical Foundations of Prior-Data Fitted Networks [0.7614628596146599]
近年,機械学習の新しいパラダイムとしてPFNが提案されている。
本稿では,PFNの理論的基盤を確立し,その挙動を制御している統計的メカニズムを照らす。
論文 参考訳(メタデータ) (2023-05-18T16:34:21Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Test-time Batch Normalization [61.292862024903584]
ディープニューラルネットワークは、トレーニングとテストの間のデータ分散シフトに悩まされることが多い。
トレーニングプロセスにおけるバッチ正規化(BN)を再検討し、テスト時の最適化に有効な2つの重要な洞察を明らかにします。
本稿では,エントロピー損失を最小限に抑えて,テスト中に最適化された新しいBN層設計GpreBNを提案する。
論文 参考訳(メタデータ) (2022-05-20T14:33:39Z) - Local Gaussian process extrapolation for BART models with applications
to causal inference [0.7734726150561088]
本稿では, ガウス過程をBARTの葉ノードに移植し, 観測データの範囲外の点を予測するための新しい外挿法を提案する。
シミュレーション研究において、新しいアプローチはJackknife+のような一般的な代替手段よりも優れたパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2022-04-23T00:37:53Z) - Reducing the Amortization Gap in Variational Autoencoders: A Bayesian
Random Function Approach [38.45568741734893]
GPモデルの推論は、セミアモタイズ法よりもはるかに高速な1つのフィードフォワードパスによって行われる。
提案手法は,複数のベンチマークデータセットの最先端データよりも高い確率でテストデータが得られることを示す。
論文 参考訳(メタデータ) (2021-02-05T13:01:12Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。