論文の概要: On a scalable entropic breaching of the overfitting barrier in machine
learning
- arxiv url: http://arxiv.org/abs/2002.03176v1
- Date: Sat, 8 Feb 2020 14:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:19:20.679381
- Title: On a scalable entropic breaching of the overfitting barrier in machine
learning
- Title(参考訳): 機械学習におけるオーバーフィット障壁のスケーラブルエントロピー破断について
- Authors: Illia Horenko
- Abstract要約: 機械学習(ML)における「小さなデータ」のオーバーフィッティングと処理は、最も難しい問題の一つである。
バイオインフォマティクスを動機とする一般的な問題のロバストな分類には、統計量$T$が必要であり、これは少なくとも13.8倍大きいので、特徴次元$D$である。
このオーバーフィッティング障壁は計算コストの10〜12ドルの割合で破ることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overfitting and treatment of "small data" are among the most challenging
problems in the machine learning (ML), when a relatively small data statistics
size $T$ is not enough to provide a robust ML fit for a relatively large data
feature dimension $D$. Deploying a massively-parallel ML analysis of generic
classification problems for different $D$ and $T$, existence of
statistically-significant linear overfitting barriers for common ML methods is
demonstrated. For example, these results reveal that for a robust
classification of bioinformatics-motivated generic problems with the Long
Short-Term Memory deep learning classifier (LSTM) one needs in a best case a
statistics $T$ that is at least 13.8 times larger then the feature dimension
$D$. It is shown that this overfitting barrier can be breached at a $10^{-12}$
fraction of the computational cost by means of the entropy-optimal Scalable
Probabilistic Approximations algorithm (eSPA), performing a joint solution of
the entropy-optimal Bayesian network inference and feature space segmentation
problems. Application of eSPA to experimental single cell RNA sequencing data
exhibits a 30-fold classification performance boost when compared to standard
bioinformatics tools - and a 7-fold boost when compared to the deep learning
LSTM classifier.
- Abstract(参考訳): のオーバーフィッティングと処理は、機械学習(ML)において最も難しい問題の一つであり、比較的小さなデータ統計サイズである$T$は、比較的大きなデータ特徴次元の$D$に適合する堅牢なMLを提供するのに十分ではない。
D$とT$の異なる一般的な分類問題の大規模並列ML解析をデプロイし、一般的なML手法に対する統計的に重要な線形オーバーフィッティング障壁の存在を実証する。
例えば、バイオインフォマティクスを動機とする一般的な問題をLSTM(Long Short-Term Memory Deep Learning Classifier)で堅牢に分類するには、統計学において少なくとも13.8倍のT$が必要であり、特徴次元はD$である。
このオーバーフィッティング障壁は、エントロピー最適化のスケーラブル確率近似アルゴリズム(eSPA)を用いて、エントロピー最適化のベイズネットワーク推論と特徴空間セグメンテーションの合同解を実行することにより、計算コストの10〜12ドル分で破ることができる。
実験単細胞RNAシークエンシングデータへのeSPAの応用は、標準バイオインフォマティクスツールと比較して30倍、ディープラーニングLSTM分類器と比較して7倍の性能向上を示す。
関連論文リスト
- Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Scalable Learning of Item Response Theory Models [48.91265296134559]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Scalable manifold learning by uniform landmark sampling and constrained
locally linear embedding [0.6144680854063939]
本研究では,大規模・高次元データを効率的に操作できるスケーラブルな多様体学習法を提案する。
異なるタイプの合成データセットと実世界のベンチマークにおけるSCMLの有効性を実証的に検証した。
scMLはデータサイズや埋め込み次元の増大とともにスケールし、グローバル構造を保存する上で有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-01-02T08:43:06Z) - Gauge-optimal approximate learning for small data classification
problems [0.0]
小さなデータ学習問題は、応答変数の観測量が限られたことと大きな特徴空間次元との相違によって特徴づけられる。
本稿では,Gauge-Optimal Approximate Learning (GOAL)アルゴリズムを提案する。
GOALは、合成データと、気候科学やバイオインフォマティクスといった現実世界の応用に挑戦する、最先端の機械学習(ML)ツールと比較されている。
論文 参考訳(メタデータ) (2023-10-29T16:46:05Z) - Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data [4.971690889257356]
コリンズとナイアーとヴァスワニによって提案された交互最小化・退化スキームの適応について紹介する。
iidにおいてもバニラ変動最小化降下は破滅的に失敗するが, 軽度に非等方性データは得られない。
我々の分析は、事前の作業を統一し、一般化し、幅広いアプリケーションに柔軟なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-08-08T17:56:20Z) - Extension of Transformational Machine Learning: Classification Problems [0.0]
本研究では、薬物発見における変換機械学習(TML)の適用と性能について検討する。
メタ学習アルゴリズムであるTMLは、さまざまなドメインにまたがる共通属性の活用に優れています。
薬物発見プロセスは複雑で時間を要するが、予測精度の増大から大きな恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-08-07T07:34:18Z) - Robust learning of data anomalies with analytically-solvable entropic
outlier sparsification [0.0]
Outlier Sparsification (EOS) はデータ異常検出のための堅牢な計算戦略として提案されている。
EOSの性能は、合成問題や、バイオメディシンからの部分的に分類された分類問題において、一般的に使用される様々なツールと比較される。
論文 参考訳(メタデータ) (2021-12-22T10:13:29Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。