論文の概要: Efficient Bayesian Learning Curve Extrapolation using Prior-Data Fitted
Networks
- arxiv url: http://arxiv.org/abs/2310.20447v1
- Date: Tue, 31 Oct 2023 13:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:53:23.413981
- Title: Efficient Bayesian Learning Curve Extrapolation using Prior-Data Fitted
Networks
- Title(参考訳): 事前データフィットネットワークを用いた効率よいベイズ学習曲線外挿法
- Authors: Steven Adriaensen, Herilalaina Rakotoarison, Samuel M\"uller, Frank
Hutter
- Abstract要約: 本稿では、この文脈におけるPFN(preded-data fit Neural Network)の最初の応用について述べる。
我々は,LC-PFNがMCMCよりも後方予測分布を正確に近似できることを実証した。
また,同じLC-PFNが,20万個の実学習曲線を外挿する競合性能を実現することを示す。
- 参考スコア(独自算出の注目度): 44.294078238444996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning curve extrapolation aims to predict model performance in later
epochs of training, based on the performance in earlier epochs. In this work,
we argue that, while the inherent uncertainty in the extrapolation of learning
curves warrants a Bayesian approach, existing methods are (i) overly
restrictive, and/or (ii) computationally expensive. We describe the first
application of prior-data fitted neural networks (PFNs) in this context. A PFN
is a transformer, pre-trained on data generated from a prior, to perform
approximate Bayesian inference in a single forward pass. We propose LC-PFN, a
PFN trained to extrapolate 10 million artificial right-censored learning curves
generated from a parametric prior proposed in prior art using MCMC. We
demonstrate that LC-PFN can approximate the posterior predictive distribution
more accurately than MCMC, while being over 10 000 times faster. We also show
that the same LC-PFN achieves competitive performance extrapolating a total of
20 000 real learning curves from four learning curve benchmarks (LCBench,
NAS-Bench-201, Taskset, and PD1) that stem from training a wide range of model
architectures (MLPs, CNNs, RNNs, and Transformers) on 53 different datasets
with varying input modalities (tabular, image, text, and protein data).
Finally, we investigate its potential in the context of model selection and
find that a simple LC-PFN based predictive early stopping criterion obtains 2 -
6x speed-ups on 45 of these datasets, at virtually no overhead.
- Abstract(参考訳): 学習曲線外挿は、後の訓練のエポックにおけるモデルパフォーマンスを、初期のエポックのパフォーマンスに基づいて予測することを目的としている。
本研究では,学習曲線の外挿における本質的な不確実性はベイズ的アプローチを保証しているが,既存の手法はそうである。
(i)過度に制限的で/または
(ii)計算コストが高い。
本稿では,この文脈における事前データ対応ニューラルネットワーク(pfns)の応用について述べる。
PFNは、前者から生成されたデータに基づいて事前訓練された変圧器であり、単一の前方通過で近似ベイズ推論を行う。
従来提案されていたパラメトリック学習曲線から生成した1000万の人工右室学習曲線をMCMCを用いて外挿するPFNであるLC-PFNを提案する。
LC-PFN は MCMC よりも後方予測分布を正確に近似できるが, 速度は 10 000 倍以上であることを示す。
また,このLC-PFNは,学習曲線ベンチマーク(LCBench, NAS-Bench-201, Taskset, PD1)から,入力モダリティの異なる53のデータセット上で,幅広いモデルアーキテクチャ(MLPs, CNNs, RNNs, Transformers)をトレーニングすることから,20000個の実学習曲線を抽出する競合性能を達成していることを示す。
最後に、モデル選択の文脈におけるその可能性を調査し、単純なLC-PFNベースの予測早期停止基準が、これらのデータセット45の26倍のスピードアップをほぼオーバーヘッドなく得られることを発見した。
関連論文リスト
- Drift-Resilient TabPFN: In-Context Learning Temporal Distribution Shifts on Tabular Data [39.40116554523575]
In-Context Learning with a Prior-Data Fitted Network に基づく新しいアプローチである Drift-Resilient TabPFN を提案する。
先行した合成データセットのベイズ推定を近似することを学ぶ。
精度は0.688から0.744に向上し、OC AUCは0.786から0.832に向上し、キャリブレーションも強化された。
論文 参考訳(メタデータ) (2024-11-15T23:49:23Z) - Unrolled denoising networks provably learn optimal Bayesian inference [54.79172096306631]
我々は、近似メッセージパッシング(AMP)のアンロールに基づくニューラルネットワークの最初の厳密な学習保証を証明した。
圧縮センシングでは、製品から引き出されたデータに基づいてトレーニングを行うと、ネットワークの層がベイズAMPで使用されるのと同じデノイザーに収束することを示す。
論文 参考訳(メタデータ) (2024-09-19T17:56:16Z) - Inferring Data Preconditions from Deep Learning Models for Trustworthy
Prediction in Deployment [25.527665632625627]
デプロイ中に見つからないデータを使って、モデルの予測の信頼性を判断することが重要です。
従来のソフトウェアを特定し検証する既存の方法は、このタスクには不十分である。
本稿では、ニューラルネットワーク計算から導出されるルールを用いて、データ前提条件を推論する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T03:47:18Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Variational Linearized Laplace Approximation for Bayesian Deep Learning [11.22428369342346]
変分スパースガウス過程(GP)を用いた線形ラプラス近似(LLA)の近似法を提案する。
本手法はGPの2つのRKHSの定式化に基づいており、予測平均として元のDNNの出力を保持する。
効率のよい最適化が可能で、結果としてトレーニングデータセットのサイズのサブ線形トレーニング時間が短縮される。
論文 参考訳(メタデータ) (2023-02-24T10:32:30Z) - An unfolding method based on conditional Invertible Neural Networks
(cINN) using iterative training [0.0]
非可逆ニューラルネットワーク(INN)のような生成ネットワークは確率的展開を可能にする。
模擬トレーニングサンプルとデータ間のずれを調整した展開のための反復条件INN(IcINN)を導入する。
論文 参考訳(メタデータ) (2022-12-16T19:00:05Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。