論文の概要: Metric Learning Improves the Ability of Combinatorial Coverage Metrics
to Anticipate Classification Error
- arxiv url: http://arxiv.org/abs/2302.14616v1
- Date: Tue, 28 Feb 2023 14:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 16:05:44.784592
- Title: Metric Learning Improves the Ability of Combinatorial Coverage Metrics
to Anticipate Classification Error
- Title(参考訳): メトリック学習による分類エラー予測のための組合せカバレッジの能力向上
- Authors: Tyler Cody, Laura Freeman
- Abstract要約: 多くの機械学習手法は、トレーニングデータとは異なるテストデータや運用データに敏感である。
計量学習は、異なるクラスのデータがさらに離れている潜在空間を学習する技術である。
6つのオープンソースデータセットについて検討した結果, パラメータ学習により, 正確な分類値と誤分類値との差が増大していることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models are increasingly used in practice. However, many
machine learning methods are sensitive to test or operational data that is
dissimilar to training data. Out-of-distribution (OOD) data is known to
increase the probability of error and research into metrics that identify what
dissimilarities in data affect model performance is on-going. Recently,
combinatorial coverage metrics have been explored in the literature as an
alternative to distribution-based metrics. Results show that coverage metrics
can correlate with classification error. However, other results show that the
utility of coverage metrics is highly dataset-dependent. In this paper, we show
that this dataset-dependence can be alleviated with metric learning, a machine
learning technique for learning latent spaces where data from different classes
is further apart. In a study of 6 open-source datasets, we find that metric
learning increased the difference between set-difference coverage metrics
(SDCCMs) calculated on correctly and incorrectly classified data, thereby
demonstrating that metric learning improves the ability of SDCCMs to anticipate
classification error. Paired t-tests validate the statistical significance of
our findings. Overall, we conclude that metric learning improves the ability of
coverage metrics to anticipate classifier error and identify when OOD data is
likely to degrade model performance.
- Abstract(参考訳): 機械学習モデルは、実際にますます使われている。
しかし、多くの機械学習手法は、訓練データとは異なるテストデータや運用データに敏感である。
アウト・オブ・ディストリビューション(OOD)データは、エラーの確率を高め、データの相違がモデルパフォーマンスにどのような影響を及ぼすかを特定するメトリクスを研究することが知られている。
近年,分散指標の代替として,組合せカバレッジ指標が文献で研究されている。
その結果,カバレッジ指標は分類誤差と相関できることがわかった。
しかし、他の結果は、カバレッジメトリクスの有用性はデータセットに依存していることを示している。
本稿では,このデータセット依存を,異なるクラスのデータがさらに分離されている潜在空間を学習するための機械学習手法であるメートル法学習で軽減できることを示す。
6つのオープンソースデータセットの研究では、正しい分類データと間違った分類データに基づいて計算されたセット・ディファレンス・カバレッジ(sdccms)の差が、メートル法学習によって増大し、sdccmによる分類エラーの予測能力が向上することを示した。
ペアtテストは, 統計学的意義を検証した。
総じて、メトリック学習は、分類器エラーを予測し、OODデータがモデル性能を低下させる可能性のあるタイミングを特定するためのカバレッジメトリクスの能力を向上させると結論付けている。
関連論文リスト
- Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Rapid Adaptation in Online Continual Learning: Are We Evaluating It
Right? [135.71855998537347]
オンライン連続学習(OCL)アルゴリズムの適応性を評価するための一般的な手法を,オンライン精度の指標を用いて再検討する。
空白のブラインド分類器でさえ、非現実的に高いオンライン精度を達成できるため、この指標は信頼できない。
既存のOCLアルゴリズムは、オンラインの精度も高いが、有用な情報の保持は不十分である。
論文 参考訳(メタデータ) (2023-05-16T08:29:33Z) - A classification performance evaluation measure considering data
separability [6.751026374812737]
本稿では,データ符号化率に基づく新たな分離可能性尺度を提案する。
実データセットから構築したマルチタスクシナリオにおいて,提案手法と認識精度の正の相関性を示す。
論文 参考訳(メタデータ) (2022-11-10T09:18:26Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z) - Finding Significant Features for Few-Shot Learning using Dimensionality
Reduction [0.0]
このモジュールは、計量学習法により与えられる類似度関数を、分類のためのより識別的な特徴を持つようにすることで、精度の向上を支援する。
提案手法は,MiniImageNetデータセットにおけるメトリック学習ベースラインの精度を約2%向上させる。
論文 参考訳(メタデータ) (2021-07-06T16:36:57Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Provably Robust Metric Learning [98.50580215125142]
既存のメトリクス学習アルゴリズムは、ユークリッド距離よりもロバストなメトリクスをもたらすことを示す。
対向摂動に対して頑健なマハラノビス距離を求めるための新しい距離学習アルゴリズムを提案する。
実験結果から,提案アルゴリズムは証明済みの堅牢な誤りと経験的堅牢な誤りの両方を改善した。
論文 参考訳(メタデータ) (2020-06-12T09:17:08Z) - Data Separability for Neural Network Classifiers and the Development of
a Separability Index [17.49709034278995]
データセットの分離性を測定するために、DSI(Distance-based Separability Index)を作成しました。
DSIは、異なるクラスに属するデータに類似した分布があるかどうかを示す。
また、データサイエンス、機械学習、ディープラーニングの分野におけるDSIの応用の可能性についても論じている。
論文 参考訳(メタデータ) (2020-05-27T01:49:19Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。