論文の概要: A Probabilistic Method to Predict Classifier Accuracy on Larger Datasets
given Small Pilot Data
- arxiv url: http://arxiv.org/abs/2311.18025v1
- Date: Wed, 29 Nov 2023 19:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:59:59.740598
- Title: A Probabilistic Method to Predict Classifier Accuracy on Larger Datasets
given Small Pilot Data
- Title(参考訳): 小型パイロットデータを用いた大規模データセットの分類精度予測のための確率的手法
- Authors: Ethan Harvey, Wansu Chen, David M. Kent, and Michael C. Hughes
- Abstract要約: 分類器を構築する実践者は、多くの場合、より小さなパイロットデータセットから始まり、近い将来、より大きなデータに成長する計画である。
このようなプロジェクトには,データサイズが2倍,10倍,50倍の精度で向上するツールキットが必要だ。
本稿では,データセットのサイズが大きくなるにつれて,精度や類似のパフォーマンス指標の確率論的外挿を求めるプロセスモデルを提案する。
- 参考スコア(独自算出の注目度): 4.076366901873452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practitioners building classifiers often start with a smaller pilot dataset
and plan to grow to larger data in the near future. Such projects need a
toolkit for extrapolating how much classifier accuracy may improve from a 2x,
10x, or 50x increase in data size. While existing work has focused on finding a
single "best-fit" curve using various functional forms like power laws, we
argue that modeling and assessing the uncertainty of predictions is critical
yet has seen less attention. In this paper, we propose a Gaussian process model
to obtain probabilistic extrapolations of accuracy or similar performance
metrics as dataset size increases. We evaluate our approach in terms of error,
likelihood, and coverage across six datasets. Though we focus on medical tasks
and image modalities, our open source approach generalizes to any kind of
classifier.
- Abstract(参考訳): 分類器を構築する実践者は、多くの場合、小さなパイロットデータセットから始めて、近い将来、より大きなデータに拡張する予定です。
このようなプロジェクトには,分類器の精度を2倍,10倍,50倍に向上させるツールキットが必要だ。
既存の研究は、パワー法則のような様々な機能形式を用いて単一の「最適な」曲線を見つけることに重点を置いてきたが、予測の不確かさのモデリングと評価は重要でありながら、あまり注目されていない。
本稿では,データセットのサイズが増加するにつれて,精度や類似の性能指標の確率的外挿を求めるガウス過程モデルを提案する。
6つのデータセットにわたるエラー、可能性、カバレッジの観点から、私たちのアプローチを評価します。
我々は医療タスクや画像のモダリティに重点を置いているが、オープンソースアプローチはあらゆる種類の分類器に一般化する。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Robust self-healing prediction model for high dimensional data [0.685316573653194]
本研究は、ロバスト自己治癒(RSH)ハイブリッド予測モデルを提案する。
それは、データを捨てるのではなく、エラーや不整合を取り除くことによって、データ全体を活用することによって機能する。
提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。
論文 参考訳(メタデータ) (2022-10-04T17:55:50Z) - Adaptive Cholesky Gaussian Processes [7.684183064816171]
本稿では,データの部分集合のみを考慮し,正確なガウス過程モデルを大規模データセットに適合させる手法を提案する。
我々のアプローチは、計算オーバーヘッドが少ない正確な推論中に、サブセットのサイズがフライで選択されるという点で新しくなっています。
論文 参考訳(メタデータ) (2022-02-22T09:43:46Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。