論文の概要: Hierarchical Scoring for Machine Learning Classifier Error Impact Evaluation
- arxiv url: http://arxiv.org/abs/2508.04489v1
- Date: Wed, 06 Aug 2025 14:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.765332
- Title: Hierarchical Scoring for Machine Learning Classifier Error Impact Evaluation
- Title(参考訳): 機械学習分類器の誤り影響評価のための階層的スコア付け
- Authors: Erin Lanus, Daniel Wolodkin, Laura J. Freeman,
- Abstract要約: この研究は、スコアリング木を用いてクラスラベル間の関係を符号化する複雑さの異なる階層的スコアリング指標を開発する。
結果、これらのメトリクスはより粒度の細かいエラーをキャプチャし、スコアリングツリーはチューニングを可能にします。
- 参考スコア(独自算出の注目度): 1.261707802034462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common use of machine learning (ML) models is predicting the class of a sample. Object detection is an extension of classification that includes localization of the object via a bounding box within the sample. Classification, and by extension object detection, is typically evaluated by counting a prediction as incorrect if the predicted label does not match the ground truth label. This pass/fail scoring treats all misclassifications as equivalent. In many cases, class labels can be organized into a class taxonomy with a hierarchical structure to either reflect relationships among the data or operator valuation of misclassifications. When such a hierarchical structure exists, hierarchical scoring metrics can return the model performance of a given prediction related to the distance between the prediction and the ground truth label. Such metrics can be viewed as giving partial credit to predictions instead of pass/fail, enabling a finer-grained understanding of the impact of misclassifications. This work develops hierarchical scoring metrics varying in complexity that utilize scoring trees to encode relationships between class labels and produce metrics that reflect distance in the scoring tree. The scoring metrics are demonstrated on an abstract use case with scoring trees that represent three weighting strategies and evaluated by the kind of errors discouraged. Results demonstrate that these metrics capture errors with finer granularity and the scoring trees enable tuning. This work demonstrates an approach to evaluating ML performance that ranks models not only by how many errors are made but by the kind or impact of errors. Python implementations of the scoring metrics will be available in an open-source repository at time of publication.
- Abstract(参考訳): 機械学習(ML)モデルの一般的な用途は、サンプルのクラスを予測することである。
オブジェクト検出は、サンプル内のバウンディングボックスを介してオブジェクトのローカライズを含む分類の拡張である。
分類と拡張対象検出により、予測ラベルが基底の真理ラベルと一致しない場合、予測を誤りとしてカウントすることで評価されるのが一般的である。
このパス/フェイルスコアは、すべての誤分類を等価として扱う。
多くの場合、分類ラベルは階層構造を持つクラス分類に分類することができ、データ間の関係を反映するか、運用者による誤分類の評価を反映することができる。
このような階層構造が存在する場合、階層的スコアリングメトリクスは、予測と基底真理ラベルの間の距離に関連する所定の予測のモデル性能を返すことができる。
このようなメトリクスは、パス/フェイルではなく予測に部分的な信用を与えると見なすことができ、誤分類の影響のよりきめ細かい理解を可能にします。
この研究は、スコアリングツリーを利用してクラスラベル間の関係を符号化し、スコアリングツリー内の距離を反映するメトリクスを生成する、複雑さの異なる階層的なスコアリングメトリクスを開発する。
スコアリング指標は,3つの重み付け戦略を表す木を抽出し,誤りの種類によって評価する,抽象的なユースケースで実証される。
結果、これらのメトリクスはより粒度の細かいエラーをキャプチャし、スコアリングツリーはチューニングを可能にします。
この研究は、ミスの数だけでなく、エラーの種類や影響によってモデルのランク付けを行うMLのパフォーマンスを評価するアプローチを示す。
スコアリングメトリクスのPython実装は、公開時にオープンソースリポジトリで利用可能になる。
関連論文リスト
- Evaluating multiple models using labeled and unlabeled data [8.174722982389259]
Semi-Supervised Model Evaluation (SSME) は、ラベル付きデータとラベルなしデータの両方を用いて機械学習分類器を評価する手法である。
本研究では,(1)医療,(2)コンテンツモデレーション,(3)分子特性予測,(4)画像アノテーションの4つの領域において,ラベル付きデータセットの取得が非現実的であることを示す。
その結果,SSMEは競合する手法よりも精度が高く,ラベル付きデータのみを用いた場合に比べて誤差が5.1倍,競合する手法では2.4倍減少することがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:47:37Z) - Harnessing Superclasses for Learning from Hierarchical Databases [1.835004446596942]
多くの大規模分類問題において、クラスは既知の階層に整理され、通常木として表される。
この種の教師付き階層分類の損失について紹介する。
提案手法では,クロスエントロピーの損失に比較して,計算コストの大幅な増大は伴わない。
論文 参考訳(メタデータ) (2024-11-25T14:39:52Z) - kNN Classification of Malware Data Dependency Graph Features [0.0]
本研究では,構造や意味に関連付けられた特徴を用いて,正確な分類を行う。
ラベル付きデータを用いて正確なモデルを訓練することにより、この意味論の特徴表現が基底真理ラベルと相関していることが示される。
この結果から,データ依存グラフが意味的情報と構造的情報の両方を正確に把握し,分類結果の説明可能性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-06-04T16:39:02Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Predicting Classification Accuracy When Adding New Unobserved Classes [8.325327265120283]
そこで本研究では,より大規模で未観測のクラスに対して,期待する精度を推定するために,分類器の性能をどのように利用することができるかを検討する。
ニューラルネットワークに基づく頑健なアルゴリズム "CleaneX" を定式化し,任意のサイズのクラスに対して,そのような分類器の精度を推定する。
論文 参考訳(メタデータ) (2020-10-28T14:37:25Z) - Class maps for visualizing classification results [0.0]
分類法は、まず与えられたクラス(ラベル)でオブジェクトのトレーニングセットを処理する。
トレーニングデータやテストデータ上で得られた予測方法を実行すると、オブジェクトが与えられたラベルとは異なるクラスに横になっていると予測されることがある。
提案されたクラスマップは、オブジェクトが代替クラスに属する確率、それが与えられたクラスの他のオブジェクトからどれくらい離れているか、そしてあるオブジェクトがすべてのクラスから遠く離れているかどうかを反映している。
論文 参考訳(メタデータ) (2020-07-28T21:27:15Z) - Adversarial Examples and Metrics [14.068394742881425]
逆の例は、入力の誤分類を引き起こす機械学習(ML)システムに対する攻撃の一種である。
対象距離が不確実な場合のロバスト分類の限界について検討する。
論文 参考訳(メタデータ) (2020-07-14T12:20:53Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z) - Structured Prediction with Partial Labelling through the Infimum Loss [85.4940853372503]
弱い監督の目標は、収集コストの安いラベル付け形式のみを使用してモデルを学習できるようにすることである。
これは、各データポイントに対して、実際のものを含むラベルのセットとして、監督がキャストされる不完全なアノテーションの一種です。
本稿では、構造化された予測と、部分的なラベリングを扱うための無限損失の概念に基づく統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-03-02T13:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。