論文の概要: Effects of Training Data Quality on Classifier Performance
- arxiv url: http://arxiv.org/abs/2602.21462v1
- Date: Wed, 25 Feb 2026 00:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.651117
- Title: Effects of Training Data Quality on Classifier Performance
- Title(参考訳): 学習データ品質が分類器の性能に及ぼす影響
- Authors: Alan F. Karr, Regina Ruane,
- Abstract要約: トレーニングデータの質を複数のメカニズムで劣化させる効果について検討する。
分解が増加し、ほぼ正しい状態から偶然に正しい状態に移動するため、すべての4つの分類器で分解のような挙動が保たれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe extensive numerical experiments assessing and quantifying how classifier performance depends on the quality of the training data, a frequently neglected component of the analysis of classifiers. More specifically, in the scientific context of metagenomic assembly of short DNA reads into "contigs," we examine the effects of degrading the quality of the training data by multiple mechanisms, and for four classifiers -- Bayes classifiers, neural nets, partition models and random forests. We investigate both individual behavior and congruence among the classifiers. We find breakdown-like behavior that holds for all four classifiers, as degradation increases and they move from being mostly correct to only coincidentally correct, because they are wrong in the same way. In the process, a picture of spatial heterogeneity emerges: as the training data move farther from analysis data, classifier decisions degenerate, the boundary becomes less dense, and congruence increases.
- Abstract(参考訳): 本稿では,分類器の性能が学習データの品質にどのように依存するかを評価・定量化するための広範な数値実験について述べる。
より具体的には、短いDNAのメダゲノミクスアセンブリの科学的文脈において、複数のメカニズムによってトレーニングデータの質を劣化させる効果について検討し、ベイズ分類器、ニューラルネット、パーティションモデル、ランダム森林の4つの分類器について検討する。
分類者の個人行動と合同性について検討する。
分解が増加するにつれて、分解のような挙動は4つの分類子全てに当てはまるが、それらは同じ方法で間違っているため、ほぼ正から正に移動する。
このプロセスでは、トレーニングデータが分析データから遠くへ移動すると、分類器の決定は退行し、境界は密度を減らし、一致が増加するという空間的不均一性の図が現われる。
関連論文リスト
- Generative Classifiers Avoid Shortcut Solutions [84.23247217037134]
分類に対する差別的なアプローチは、しばしば、分配されるが、小さな分布シフトの下で失敗するショートカットを学習する。
生成型分類器は、主にスパイラルな特徴ではなく、コアとスパイラルの両方の全ての特徴をモデル化することでこの問題を回避することができることを示す。
拡散型および自己回帰型生成型分類器は,5つの標準画像およびテキスト分散シフトベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。
2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。
Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文 参考訳(メタデータ) (2025-08-20T11:59:32Z) - On the Interconnections of Calibration, Quantification, and Classifier Accuracy Prediction under Dataset Shift [58.91436551466064]
本稿では,データセットシフト条件下でのキャリブレーションと定量化の3つの基本問題間の相互接続について検討する。
これらのタスクのいずれか1つに対するオラクルへのアクセスは、他の2つのタスクの解決を可能にすることを示す。
本稿では,他の分野から借用した高度に確立された手法の直接適応に基づく各問題に対する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:42:55Z) - Sub-Clustering for Class Distance Recalculation in Long-Tailed Drug Classification [3.015770349327888]
薬物化学の分野では、特定の尾のクラスは、その特異な分子構造的特徴により、訓練中に高い識別性を示す。
本稿では,サンプルサイズに基づく従来の静的評価パラダイムから脱却する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-07T00:09:10Z) - Boosting of Classification Models with Human-in-the-Loop Computational Visual Knowledge Discovery [2.9465623430708905]
本稿では, クラス重複領域のすべてのケースに対して, 誤分類事例のみに焦点をあてることから, クラス重複領域への移動促進手法を提案する。
分割と分類のプロセスは、ケースを単純で複雑なものに分割し、計算分析とデータの視覚化を通じて個別に分類する。
純粋なクラス領域と重複クラス領域を見つけた後、純粋な領域における単純なケースを分類し、命題論理や一階論理などの決定規則のような解釈可能なサブモデルを生成する。
論文 参考訳(メタデータ) (2025-02-10T21:09:19Z) - PULASki: Learning inter-rater variability using statistical distances to improve probabilistic segmentation [35.34932609930401]
本研究は,バイオメディカルイメージセグメンテーションのための計算効率の良い生成ツールとしてのPULASki法を提案する。
専門家のアノテーションでは、小さなデータセットであっても、変数をキャプチャする。
また,3次元パッチと従来の2次元スライスを用いた複雑なジオメトリーの計算可能セグメンテーションについて比較検討した。
論文 参考訳(メタデータ) (2023-12-25T10:31:22Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - The Effect of the Loss on Generalization: Empirical Study on Synthetic
Lung Nodule Data [13.376247652484274]
異なる損失関数が学習される特徴に結びつき、その結果、未確認データに対する分類器の一般化能力に影響を及ぼすことを示す。
本研究は、医用画像処理タスクのためのディープラーニングソリューションの設計に関する重要な知見を提供する。
論文 参考訳(メタデータ) (2021-08-10T17:58:01Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - A Systematic Evaluation: Fine-Grained CNN vs. Traditional CNN
Classifiers [54.996358399108566]
本稿では,大規模分類データセット上でトップノーチ結果を示すランドマーク一般的なCNN分類器の性能について検討する。
最先端のきめ細かい分類器と比較する。
実験において, 粒度の細かい分類器がベースラインを高められるかどうかを判定するために, 6つのデータセットについて広範囲に評価する。
論文 参考訳(メタデータ) (2020-03-24T23:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。