Fugu-MT 論文翻訳(概要): mlscorecheck: Testing the consistency of reported performance scores and experiments in machine learning

論文の概要: mlscorecheck: Testing the consistency of reported performance scores and experiments in machine learning

arxiv url: http://arxiv.org/abs/2311.07541v1
Date: Mon, 13 Nov 2023 18:31:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 13:11:35.640464
Title: mlscorecheck: Testing the consistency of reported performance scores and experiments in machine learning
Title（参考訳）: mlscorecheck: 報告されたパフォーマンススコアと機械学習の実験の一貫性をテストする
Authors: Gy\"orgy Kov\'acs and Attila Fazekas
Abstract要約: 我々は、報告された性能スコアと機械学習問題における様々な実験装置との矛盾を識別できる数値的手法を開発した。これらの一貫性テストは、オープンソースのパッケージmlscorecheckに統合される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Addressing the reproducibility crisis in artificial intelligence through the validation of reported experimental results is a challenging task. It necessitates either the reimplementation of techniques or a meticulous assessment of papers for deviations from the scientific method and best statistical practices. To facilitate the validation of reported results, we have developed numerical techniques capable of identifying inconsistencies between reported performance scores and various experimental setups in machine learning problems, including binary/multiclass classification and regression. These consistency tests are integrated into the open-source package mlscorecheck, which also provides specific test bundles designed to detect systematically recurring flaws in various fields, such as retina image processing and synthetic minority oversampling.
Abstract（参考訳）: 報告された実験結果の検証を通じて、人工知能における再現性危機に対処することは難しい課題である。技術の再実装や、科学的手法や最良の統計実践から逸脱した論文の細心の注意深い評価が必要となる。報告結果の検証を容易にするため,2進・複数クラス分類や回帰を含む機械学習問題において,報告された性能スコアと各種実験装置との矛盾を識別できる数値的手法を開発した。これらの一貫性テストは、オープンソースパッケージのmlscorecheckに統合され、網膜画像処理や合成マイノリティオーバーサンプリングなど、さまざまな分野で系統的に繰り返し発生する欠陥を検出するための、特定のテストバンドルも提供される。

関連論文リスト

MindfulLIME: A Stable Solution for Explanations of Machine Learning Models with Enhanced Localization Precision -- A Medical Image Case Study [0.7373617024876725]
グラフベースのプルーニングアルゴリズムと不確実性サンプリングを用いて視覚的説明を生成する新しいアルゴリズムであるMindfulLIMEを提案する。胸部X線データセットを用いて実験を行い,MindfulLIMEの安定性を100%成功率で確認した。 MindfulLIMEは、生成された説明と実際のローカルアノテーションの間の距離を減らすことで、視覚的説明のローカライズ精度を向上させる。
論文参考訳（メタデータ） (2025-03-25T14:48:14Z)
A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。工業画像から抽出した55個の特徴を統計的手法を用いて解析した。これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文参考訳（メタデータ） (2024-12-11T22:12:21Z)
Similarity-Dissimilarity Loss for Multi-label Supervised Contrastive Learning [4.325075044327162]
教師付きコントラスト学習はラベル情報を活用することで大きな成功を収めた。しかし、多ラベルシナリオにおける正のサンプルの決定は依然として重要な課題である。
論文参考訳（メタデータ） (2024-10-17T11:12:55Z)
Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。しかし、主性能指標としての試験精度の信頼性は疑問視されている。トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文参考訳（メタデータ） (2024-09-22T11:38:14Z)
Provably Neural Active Learning Succeeds via Prioritizing Perplexing Samples [53.95282502030541]
ニューラルネットワークベースのアクティブラーニング(NAL)は、ニューラルネットワークを使用してサンプルの小さなサブセットを選択してトレーニングする、費用対効果の高いデータ選択技術である。我々は、機能学習の観点から、両方のクエリ基準ベースのNALの成功について、統一的な説明を提供することにより、一歩前進させようとする。
論文参考訳（メタデータ） (2024-06-06T10:38:01Z)
FlaKat: A Machine Learning-Based Categorization Framework for Flaky Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。 State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文参考訳（メタデータ） (2024-03-01T22:00:44Z)
Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文参考訳（メタデータ） (2023-10-30T09:46:19Z)
Testing the Consistency of Performance Scores Reported for Binary Classification Problems [0.0]
報告された性能スコアの整合性を評価する数値的手法と推定された実験装置を紹介する。本研究では,提案手法が不整合を効果的に検出し,研究分野の整合性を保護する方法を示す。科学コミュニティの利益を得るために、一貫性テストはオープンソースのPythonパッケージで利用可能にしました。
論文参考訳（メタデータ） (2023-10-19T07:04:29Z)
Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文参考訳（メタデータ） (2023-08-28T18:48:34Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Learn then Test: Calibrating Predictive Algorithms to Achieve Risk Control [67.52000805944924]
Learn then Test (LTT)は、機械学習モデルを校正するフレームワークである。私たちの主な洞察は、リスクコントロール問題を複数の仮説テストとして再設計することです。我々は、コンピュータビジョンの詳細な実例を用いて、コア機械学習タスクの新しいキャリブレーション手法を提供するために、我々のフレームワークを使用します。
論文参考訳（メタデータ） (2021-10-03T17:42:03Z)
Efficient and accurate group testing via Belief Propagation: an empirical study [5.706360286474043]
グループテスト問題は効率的なプーリングスキームとアルゴリズムを要求する。目標は感染したサンプルを正確に識別し、最小限の数の検査を行うことである。結果の精度を大幅に向上させる新しいテスト設計を提案する。
論文参考訳（メタデータ） (2021-05-13T10:52:46Z)
Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文参考訳（メタデータ） (2020-07-24T17:40:06Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。