論文の概要: A classification performance evaluation measure considering data
separability
- arxiv url: http://arxiv.org/abs/2211.05433v1
- Date: Thu, 10 Nov 2022 09:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 16:24:05.384149
- Title: A classification performance evaluation measure considering data
separability
- Title(参考訳): データ分離性を考慮した分類性能評価尺度
- Authors: Lingyan Xue, Xinyu Zhang, Weidong Jiang and Kai Huo
- Abstract要約: 本稿では,データ符号化率に基づく新たな分離可能性尺度を提案する。
実データセットから構築したマルチタスクシナリオにおいて,提案手法と認識精度の正の相関性を示す。
- 参考スコア(独自算出の注目度): 6.751026374812737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning and deep learning classification models are data-driven, and
the model and the data jointly determine their classification performance. It
is biased to evaluate the model's performance only based on the classifier
accuracy while ignoring the data separability. Sometimes, the model exhibits
excellent accuracy, which might be attributed to its testing on highly
separable data. Most of the current studies on data separability measures are
defined based on the distance between sample points, but this has been
demonstrated to fail in several circumstances. In this paper, we propose a new
separability measure--the rate of separability (RS), which is based on the data
coding rate. We validate its effectiveness as a supplement to the separability
measure by comparing it to four other distance-based measures on synthetic
datasets. Then, we demonstrate the positive correlation between the proposed
measure and recognition accuracy in a multi-task scenario constructed from a
real dataset. Finally, we discuss the methods for evaluating the classification
performance of machine learning and deep learning models considering data
separability.
- Abstract(参考訳): 機械学習とディープラーニングの分類モデルはデータ駆動であり、モデルとデータはそれらの分類性能を共同で決定する。
データ分離性を無視しながら、分類器の精度のみに基づいてモデルの性能を評価するバイアスがある。
時に、モデルは優れた精度を示すが、それは高度に分離可能なデータに対するテストによるものかもしれない。
データ分離性測定に関する現在の研究のほとんどは、サンプルポイント間の距離に基づいて定義されているが、いくつかの状況で失敗することが示されている。
本稿では,データ符号化率に基づく新たな分離可能性尺度,RS(Separability rate of Separability)を提案する。
合成データセットに関する他の4つの距離に基づく尺度と比較し,分離性尺度の補足としての有効性を検証する。
次に,実データから構築したマルチタスクシナリオにおいて,提案手法と認識精度との正の相関を示す。
最後に,データ分離性を考慮した機械学習およびディープラーニングモデルの分類性能評価手法について検討する。
関連論文リスト
- Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Measuring and Improving Attentiveness to Partial Inputs with
Counterfactuals [95.5442607785241]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Metric Learning Improves the Ability of Combinatorial Coverage Metrics
to Anticipate Classification Error [0.0]
多くの機械学習手法は、トレーニングデータとは異なるテストデータや運用データに敏感である。
計量学習は、異なるクラスのデータがさらに離れている潜在空間を学習する技術である。
6つのオープンソースデータセットについて検討した結果, パラメータ学習により, 正確な分類値と誤分類値との差が増大していることが判明した。
論文 参考訳(メタデータ) (2023-02-28T14:55:57Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Estimating Model Performance under Domain Shifts with Class-Specific
Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。
我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文 参考訳(メタデータ) (2022-07-20T15:04:32Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z) - A Novel Intrinsic Measure of Data Separability [0.0]
機械学習では、分類器のパフォーマンスはデータセットの分離性と複雑さに依存する。
私たちは、DSI(Distance-based Separability Index)という本質的な尺度を作成します。
DSIは,データセットの分布が任意の次元に対して同一であるか否かを示す。
論文 参考訳(メタデータ) (2021-09-11T04:20:08Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Data Separability for Neural Network Classifiers and the Development of
a Separability Index [17.49709034278995]
データセットの分離性を測定するために、DSI(Distance-based Separability Index)を作成しました。
DSIは、異なるクラスに属するデータに類似した分布があるかどうかを示す。
また、データサイエンス、機械学習、ディープラーニングの分野におけるDSIの応用の可能性についても論じている。
論文 参考訳(メタデータ) (2020-05-27T01:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。