論文の概要: SmallML: Bayesian Transfer Learning for Small-Data Predictive Analytics
- arxiv url: http://arxiv.org/abs/2511.14049v1
- Date: Tue, 18 Nov 2025 02:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.878946
- Title: SmallML: Bayesian Transfer Learning for Small-Data Predictive Analytics
- Title(参考訳): SmallML:小データ予測分析のためのベイズ変換学習
- Authors: Semen Leontev,
- Abstract要約: SmallMLは50~200という小さなデータセットで、エンタープライズレベルの予測精度を達成する。
顧客データの検証では、96.7%+/-4.2%のAUCがビジネス当たり100の観測結果を示している。
3300万の米国中小企業のエンタープライズグレードの予測を可能にすることで、SmallMLはAIの民主化における重要なギャップに対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Small and medium-sized enterprises (SMEs) represent 99.9% of U.S. businesses yet remain systematically excluded from AI due to a mismatch between their operational scale and modern machine learning's data requirements. This paper introduces SmallML, a Bayesian transfer learning framework achieving enterprise-level prediction accuracy with datasets as small as 50-200 observations. We develop a three-layer architecture integrating transfer learning, hierarchical Bayesian modeling, and conformal prediction. Layer 1 extracts informative priors from 22,673 public records using a SHAP-based procedure transferring knowledge from gradient boosting to logistic regression. Layer 2 implements hierarchical pooling across J=5-50 SMEs with adaptive shrinkage, balancing population patterns with entity-specific characteristics. Layer 3 provides conformal sets with finite-sample coverage guarantees P(y in C(x)) >= 1-alpha for distribution-free uncertainty quantification. Validation on customer churn data demonstrates 96.7% +/- 4.2% AUC with 100 observations per business -- a +24.2 point improvement over independent logistic regression (72.5% +/- 8.1%), with p < 0.000001. Conformal prediction achieves 92% empirical coverage at 90% target. Training completes in 33 minutes on standard CPU hardware. By enabling enterprise-grade predictions for 33 million U.S. SMEs previously excluded from machine learning, SmallML addresses a critical gap in AI democratization. Keywords: Bayesian transfer learning, hierarchical models, conformal prediction, small-data analytics, SME machine learning
- Abstract(参考訳): 中小規模企業(中小企業)は、運用規模と現代の機械学習のデータ要求のミスマッチのため、米国企業の99.9%は依然としてAIから体系的に除外されている。
本稿では,50~200の観測データを用いて,企業レベルの予測精度を実現するためのベイズ移動学習フレームワークであるSmallMLを紹介する。
トランスファーラーニング,階層ベイズモデリング,共形予測を統合した3層アーキテクチャを開発した。
レイヤ1は、勾配上昇からロジスティック回帰へ知識を伝達するSHAPベースの手順を用いて、22,673の公開レコードから情報的先行情報を抽出する。
層2は、J=5-50の中小企業をまたいだ階層的なプーリングを実装し、適応的な縮小、集団パターンとエンティティ固有の特性のバランスをとる。
層 3 は、分布のない不確実性定量化のために有限サンプル被覆を持つ共形集合 P(y in C(x)) >= 1-アルファ を提供する。
顧客データを検証した結果、AUCは96.7%+/-4.2%で、ビジネス当たり100の観測で、独立ロジスティック回帰(72.5%+/-8.1%)よりも24.2ポイント改善され、p < 0.000001である。
コンフォーマル予測は90%の目標で92%の経験的カバレッジを達成する。
トレーニングは標準CPUハードウェアで33分で完了する。
これまで機械学習から除外されていた3300万の米国中小企業のエンタープライズグレードの予測を可能にすることで、SmallMLはAIの民主化における重要なギャップに対処する。
キーワード:ベイズ移動学習、階層モデル、共形予測、小型データ分析、中小企業機械学習
関連論文リスト
- Forecasting Frontier Language Model Agent Capabilities [0.7499722271664147]
言語モデル(LM)の下流能力を予測する6つの予測手法を評価する。
計算やモデルリリース日などの入力メトリクスからベンチマークスコアを直接予測する"ワンステップ"アプローチや、クロスベンチマークパフォーマンス(PC-1)や人間による競争力のあるElo評価といった中間メトリックを最初に予測する"ツーステップ"アプローチを採用しています。
当社の予測では,2026年初めまでに,能力の低い非特殊化LMエージェントがSWE-Bench Verifiedで54%,最先端LMエージェントが87%の成功率に達すると予測されている。
論文 参考訳(メタデータ) (2025-02-21T02:34:17Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。