論文の概要: Testing the Consistency of Performance Scores Reported for Binary
Classification Problems
- arxiv url: http://arxiv.org/abs/2310.12527v1
- Date: Thu, 19 Oct 2023 07:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 16:25:53.734051
- Title: Testing the Consistency of Performance Scores Reported for Binary
Classification Problems
- Title(参考訳): 二元分類問題に対するパフォーマンススコアの一貫性の検討
- Authors: Attila Fazekas and Gy\"orgy Kov\'acs
- Abstract要約: 報告された性能スコアの整合性を評価する数値的手法と推定された実験装置を紹介する。
本研究では,提案手法が不整合を効果的に検出し,研究分野の整合性を保護する方法を示す。
科学コミュニティの利益を得るために、一貫性テストはオープンソースのPythonパッケージで利用可能にしました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary classification is a fundamental task in machine learning, with
applications spanning various scientific domains. Whether scientists are
conducting fundamental research or refining practical applications, they
typically assess and rank classification techniques based on performance
metrics such as accuracy, sensitivity, and specificity. However, reported
performance scores may not always serve as a reliable basis for research
ranking. This can be attributed to undisclosed or unconventional practices
related to cross-validation, typographical errors, and other factors. In a
given experimental setup, with a specific number of positive and negative test
items, most performance scores can assume specific, interrelated values. In
this paper, we introduce numerical techniques to assess the consistency of
reported performance scores and the assumed experimental setup. Importantly,
the proposed approach does not rely on statistical inference but uses numerical
methods to identify inconsistencies with certainty. Through three different
applications related to medicine, we demonstrate how the proposed techniques
can effectively detect inconsistencies, thereby safeguarding the integrity of
research fields. To benefit the scientific community, we have made the
consistency tests available in an open-source Python package.
- Abstract(参考訳): バイナリ分類は機械学習の基本的なタスクであり、様々な科学領域にまたがる応用がある。
科学者が基礎的な研究を行うか、実用的応用を洗練しているかに関わらず、彼らは通常、正確性、感度、特異性などの性能指標に基づいて分類技術を評価しランク付けする。
しかし、報告されたパフォーマンススコアは必ずしも研究ランキングの信頼できる基礎となるとは限らない。
これは、クロスバリデーション、タイポグラフィーの誤り、その他の要因に関連する非開示または非伝統的慣行に起因する可能性がある。
特定の数のポジティブなテスト項目とネガティブなテスト項目がある所定の実験環境では、ほとんどのパフォーマンススコアは、特定の相互関連的な値を仮定できる。
本稿では,実測結果と実測値の整合性を評価する数値的手法を提案する。
重要な点として,提案手法は統計的推論に頼らず,不一致の特定に数値的手法を用いる。
医学に関する3つの異なる応用を通して,提案手法が不整合を効果的に検出し,研究分野の整合性を保護する方法を示す。
科学コミュニティに利益をもたらすため、オープンソースのPythonパッケージで一貫性テストを提供しました。
関連論文リスト
- ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation [2.1517210693540005]
不確実性推定は、セマンティックセグメンテーション法において不可欠で研究の難しい要素である。
データ関連とモデル関連の不確実性は実際に分離できるのか?
不確実性手法のどのコンポーネントが現実世界のパフォーマンスに欠かせないのか?
論文 参考訳(メタデータ) (2024-01-16T17:02:21Z) - mlscorecheck: Testing the consistency of reported performance scores and
experiments in machine learning [0.0]
我々は、報告された性能スコアと機械学習問題における様々な実験装置との矛盾を識別できる数値的手法を開発した。
これらの一貫性テストは、オープンソースのパッケージmlscorecheckに統合される。
論文 参考訳(メタデータ) (2023-11-13T18:31:48Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Breaking Down Out-of-Distribution Detection: Many Methods Based on OOD
Training Data Estimate a Combination of the Same Core Quantities [104.02531442035483]
本研究の目的は,OOD検出手法の暗黙的なスコアリング機能を識別すると同時に,共通の目的を認識することである。
内分布と外分布の2値差はOOD検出問題のいくつかの異なる定式化と等価であることを示す。
また, 外乱露光で使用される信頼損失は, 理論上最適のスコアリング関数と非自明な方法で異なる暗黙的なスコアリング関数を持つことを示した。
論文 参考訳(メタデータ) (2022-06-20T16:32:49Z) - Evaluating Causal Inference Methods [0.4588028371034407]
我々は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入する。
我々の研究は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入している。
論文 参考訳(メタデータ) (2022-02-09T00:21:22Z) - Learning to Rank Anomalies: Scalar Performance Criteria and Maximization
of Two-Sample Rank Statistics [0.0]
本稿では,観測結果の異常度を反映した特徴空間上で定義されたデータ駆動スコアリング関数を提案する。
このスコアリング関数は、よく設計された二項分類問題を通じて学習される。
本稿では,予備的な数値実験による方法論について解説する。
論文 参考訳(メタデータ) (2021-09-20T14:45:56Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。