論文の概要: Why you don't overfit, and don't need Bayes if you only train for one epoch
- arxiv url: http://arxiv.org/abs/2411.14478v1
- Date: Tue, 19 Nov 2024 09:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 18:36:40.450857
- Title: Why you don't overfit, and don't need Bayes if you only train for one epoch
- Title(参考訳): なぜオーバーフィットしないのか、そして1つの時代のためにトレーニングするならベイズを必要としないのか
- Authors: Laurence Aitchison,
- Abstract要約: データリッチな設定では、各データポイントのみをトレーニングする(あるいは、同じことを、ひとつのエポックでのみトレーニングする)が、標準的な"最大可能性"トレーニングは、テスト損失に相当する真のデータ生成プロセス(DGP)損失を最適化します。
我々はベイズ推定がこれらの設定における過度な適合や校正の面でいかなる利点も与えるとは考えていないと論じている。
- 参考スコア(独自算出の注目度): 30.667010167576134
- License:
- Abstract: Here, we show that in the data-rich setting where you only train on each datapoint once (or equivalently, you only train for one epoch), standard "maximum likelihood" training optimizes the true data generating process (DGP) loss, which is equivalent to the test loss. Further, we show that the Bayesian model average optimizes the same objective, albeit while taking the expectation over uncertainty induced by finite data. As standard maximum likelihood training in the single-epoch setting optimizes the same objective as Bayesian inference, we argue that we do not expect Bayesian inference to offer any advantages in terms of overfitting or calibration in these settings. This explains the diminishing importance of Bayes in areas such as LLMs, which are often trained with one (or very few) epochs.
- Abstract(参考訳): ここでは、各データポイントに1度しかトレーニングしないデータリッチな環境では、標準的な"最大可能性"トレーニングは、テスト損失に相当する真のデータ生成プロセス(DGP)損失を最適化する。
さらに, ベイズモデルの平均値は, 有限データによる不確実性に対する期待を抑えながら, 同じ目的を最適化することを示した。
単一エポック設定における標準的な最大可能性トレーニングはベイズ推定と同じ目的を最適化するので、ベイズ推定がこれらの設定における過度な適合や校正の利点を提供するとは考えていない。
このことは、1つの(または非常に少ない)エポックで訓練されるLLMのような分野におけるベイズの重要性の低下を説明する。
関連論文リスト
- Hessian-Free Laplace in Bayesian Deep Learning [44.16006844888796]
Hessian-free Laplace (HFL)近似は、その分散を推定するために、ログ後部とネットワーク予測の両方の曲率を使用する。
ベイズ深層学習におけるLAの標準的な仮定の下では、HFLはLAと同じ分散を目標とし、事前学習されたネットワークで効率よく再生可能であることを示す。
論文 参考訳(メタデータ) (2024-03-15T20:47:39Z) - Can a Confident Prior Replace a Cold Posterior? [20.018444020989712]
冷間後部の性能をサンプリングし,ほぼ一致させる「DirClip」を導入する。
第2に, 温度低下の限界において, 直接的に寒冷度を近似する「信頼先行」を導入するが, 容易にはサンプル化できない。
論文 参考訳(メタデータ) (2024-03-02T17:28:55Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Using Random Walks for Iterative Phase Estimation [12.892284518456059]
We provide a new approach to online Bayesian phase estimation that achieves Heisenberg limited scaling。
これは、既存の粒子フィルタ法ではミリ秒ではなく、CPU上でマイクロ秒で更新できることを意味している。
この研究は、オンラインベイズ推論が実用的で、効率的で、現代のFPGA駆動適応実験にデプロイする準備ができていることを示している。
論文 参考訳(メタデータ) (2022-08-09T03:31:15Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Towards optimally abstaining from prediction [22.937799541125607]
機械学習のあらゆる領域に共通する課題は、トレーニングデータがテストデータのように分散されていないことだ。
一定のコストで予測を控えるモデルを考える。
我々は、Goldwasser、Kalais、Montasser(2020年)の最近の禁断アルゴリズムに基づいて、トランスダクティブバイナリ分類を行った。
論文 参考訳(メタデータ) (2021-05-28T21:44:48Z) - Time-Series Imputation with Wasserstein Interpolation for Optimal
Look-Ahead-Bias and Variance Tradeoff [66.59869239999459]
ファイナンスでは、ポートフォリオ最適化モデルをトレーニングする前に、損失の計算を適用することができる。
インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。
提案手法は,提案法における差分とルックアヘッドバイアスのトレードオフを最適に制御するベイズ後部コンセンサス分布である。
論文 参考訳(メタデータ) (2021-02-25T09:05:35Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。