論文の概要: Statistical Foundations of Prior-Data Fitted Networks
- arxiv url: http://arxiv.org/abs/2305.11097v1
- Date: Thu, 18 May 2023 16:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 13:58:29.887363
- Title: Statistical Foundations of Prior-Data Fitted Networks
- Title(参考訳): 事前データ適合ネットワークの統計的基礎
- Authors: Thomas Nagler
- Abstract要約: 近年,機械学習の新しいパラダイムとしてPFNが提案されている。
本稿では,PFNの理論的基盤を確立し,その挙動を制御している統計的メカニズムを照らす。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior-data fitted networks (PFNs) were recently proposed as a new paradigm
for machine learning. Instead of training the network to an observed training
set, a fixed model is pre-trained offline on small, simulated training sets
from a variety of tasks. The pre-trained model is then used to infer class
probabilities in-context on fresh training sets with arbitrary size and
distribution. Empirically, PFNs achieve state-of-the-art performance on tasks
with similar size to the ones used in pre-training. Surprisingly, their
accuracy further improves when passed larger data sets during inference. This
article establishes a theoretical foundation for PFNs and illuminates the
statistical mechanisms governing their behavior. While PFNs are motivated by
Bayesian ideas, a purely frequentistic interpretation of PFNs as pre-tuned, but
untrained predictors explains their behavior. A predictor's variance vanishes
if its sensitivity to individual training samples does and the bias vanishes
only if it is appropriately localized around the test feature. The transformer
architecture used in current PFN implementations ensures only the former. These
findings shall prove useful for designing architectures with favorable
empirical behavior.
- Abstract(参考訳): 機械学習の新しいパラダイムとして、事前データ対応ネットワーク(pfns)が最近提案されている。
ネットワークを観察されたトレーニングセットにトレーニングするのではなく、さまざまなタスクからシミュレーションされたトレーニングセット上で、固定モデルはオフラインでトレーニングされる。
事前学習されたモデルは、任意のサイズと分布を持つフレッシュトレーニングセットのコンテキスト内のクラス確率を推測するために使用される。
実証的には、PFNは、事前トレーニングで使用されるものと同じ大きさのタスクで最先端のパフォーマンスを達成する。
驚くべきことに、推論中に大きなデータセットを渡すと、その精度はさらに向上する。
本稿では,PFNの理論的基盤を確立し,その挙動を制御している統計的メカニズムを照らす。
PFNはベイズ的考えに動機付けられているが、PFNの純粋に頻繁な解釈は事前調整されたものであるが、訓練されていない予測者はそれらの振る舞いを説明する。
予測器の分散は、個々のトレーニングサンプルに対する感度が低下し、バイアスがテスト特徴の周囲に適切に局在している場合に限り消滅する。
現在のPFN実装で使用されるトランスフォーマーアーキテクチャは、前者のみを保証する。
これらの知見は、好適な経験的行動を持つ建築の設計に有用であることを示す。
関連論文リスト
- Initialization Matters: Unraveling the Impact of Pre-Training on Federated Learning [21.440470901377182]
事前訓練されたモデルの初期化は、機械学習の標準的なプラクティスになりつつある。
我々は,2層畳み込みニューラルネットワーク(CNN)のクラスについて検討し,FedAvgでトレーニングしたネットワークのトレーニングエラー収束とテストエラーのバウンダリを提供する。
論文 参考訳(メタデータ) (2025-02-11T23:53:16Z) - Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation [39.7344214193566]
時系列予測(TSF)に適した先駆的なテスト時間適応フレームワークを提案する。
TSF-TTAに対する提案手法であるTAFASは、事前学習中に学習したコアセマンティック情報を保存しながら、ソース予測器をフレキシブルに適応してテスト分布を継続的にシフトさせる。
部分的に観測された真実とゲートキャリブレーションモジュールの新たな利用により、ソース予測器のプロアクティブ、ロバスト、モデルに依存しない適応が可能となった。
論文 参考訳(メタデータ) (2025-01-09T04:59:15Z) - Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T23:02:26Z) - An unfolding method based on conditional Invertible Neural Networks
(cINN) using iterative training [0.0]
非可逆ニューラルネットワーク(INN)のような生成ネットワークは確率的展開を可能にする。
模擬トレーニングサンプルとデータ間のずれを調整した展開のための反復条件INN(IcINN)を導入する。
論文 参考訳(メタデータ) (2022-12-16T19:00:05Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。