論文の概要: Quantifying Inherent Randomness in Machine Learning Algorithms
- arxiv url: http://arxiv.org/abs/2206.12353v1
- Date: Fri, 24 Jun 2022 15:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 13:01:28.754371
- Title: Quantifying Inherent Randomness in Machine Learning Algorithms
- Title(参考訳): 機械学習アルゴリズムにおける固有ランダム性の定量化
- Authors: Soham Raste, Rahul Singh, Joel Vaughan, and Vijayan N. Nair
- Abstract要約: 本稿では,モデル学習におけるランダム性,およびデータセットのトレーニングおよびテストサブセットへの分割におけるランダム性の影響を実験的に検討する。
我々は、ランダムフォレスト(RF)、グラディエントブースティングマシン(GBM)、フィードフォワードニューラルネットワーク(FFNN)の予測性能の変動の大きさを定量化し、比較する。
- 参考スコア(独自算出の注目度): 7.591218883378448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most machine learning (ML) algorithms have several stochastic elements, and
their performances are affected by these sources of randomness. This paper uses
an empirical study to systematically examine the effects of two sources:
randomness in model training and randomness in the partitioning of a dataset
into training and test subsets. We quantify and compare the magnitude of the
variation in predictive performance for the following ML algorithms: Random
Forests (RFs), Gradient Boosting Machines (GBMs), and Feedforward Neural
Networks (FFNNs). Among the different algorithms, randomness in model training
causes larger variation for FFNNs compared to tree-based methods. This is to be
expected as FFNNs have more stochastic elements that are part of their model
initialization and training. We also found that random splitting of datasets
leads to higher variation compared to the inherent randomness from model
training. The variation from data splitting can be a major issue if the
original dataset has considerable heterogeneity.
Keywords: Model Training, Reproducibility, Variation
- Abstract(参考訳): ほとんどの機械学習(ML)アルゴリズムはいくつかの確率的要素を持ち、それらの性能はこれらのランダムな源に影響される。
本稿では,モデルトレーニングにおけるランダム性と,データセットのトレーニングとテストサブセットへの分割におけるランダム性という2つのソースの効果を体系的に検討する。
我々は、ランダムフォレスト(RF)、グラディエントブースティングマシン(GBM)、フィードフォワードニューラルネットワーク(FFNN)の予測性能の変動の大きさを定量化し、比較する。
異なるアルゴリズムの中で、モデルトレーニングにおけるランダム性は、木に基づく手法に比べてFFNNの変動が大きい。
ffnnにはモデル初期化とトレーニングの一部であるより確率的な要素があるため、これは期待できる。
また,データセットのランダムな分割は,モデルトレーニングの固有ランダム性よりも高いばらつきをもたらすことが分かった。
データ分割のバリエーションは、元のデータセットがかなり不均一性がある場合、大きな問題となる。
キーワード:モデルトレーニング、再現性、バリエーション
関連論文リスト
- Derandomizing Multi-Distribution Learning [28.514129340758938]
マルチディストリビューション学習では、複数のデータ分散でうまく動作する単一の予測子を学習する。
近年の研究では、オラクル効率のアルゴリズムにより、ほぼ最適サンプルの複雑さが達成されている。
これらのアルゴリズムは、複数の分布に対する決定論的予測子を生成するためにデランドマイズできるのだろうか?
論文 参考訳(メタデータ) (2024-09-26T06:28:56Z) - Rolling the dice for better deep learning performance: A study of randomness techniques in deep neural networks [4.643954670642798]
本稿では,Deep Neural Networks(DNN)における様々なランダム化手法について検討する。
テクニックは、損失関数にノイズを加える、ランダムな勾配更新をマスキングする、データ拡張と重み一般化の4つのタイプに分類される。
完全な実装とデータセットはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-04-05T10:02:32Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Learning Likelihood Ratios with Neural Network Classifiers [0.12277343096128711]
確率比の近似は、ニューラルネットワークベースの分類器の巧妙なパラメトリゼーションを用いて計算することができる。
本稿では、いくつかの共通損失関数の性能と分類器出力のパラメトリゼーションを詳述した一連の実証研究について述べる。
論文 参考訳(メタデータ) (2023-05-17T18:11:38Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Bayesian predictive modeling of multi-source multi-way data [0.0]
初期鉄欠乏症 (ID) の予測因子として, 複数のオミクス源から得られた分子データについて検討した。
係数に低ランク構造を持つ線形モデルを用いて多方向依存を捕捉する。
本モデルでは, 誤分類率と推定係数と真の係数との相関から, 期待通りの性能を示すことを示す。
論文 参考訳(メタデータ) (2022-08-05T21:58:23Z) - Performance and Interpretability Comparisons of Supervised Machine
Learning Algorithms: An Empirical Study [3.7881729884531805]
論文は発見に基づく方法で整理され、各セクションが一般的な結論を提供する。
全体として、XGBとFFNNは競争力があり、FFNNはスムーズなモデルでより良いパフォーマンスを示した。
RFは一般には良好に機能せず,文献で確認された。
論文 参考訳(メタデータ) (2022-04-27T12:04:33Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。