論文の概要: Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection
- arxiv url: http://arxiv.org/abs/2508.04899v1
- Date: Wed, 06 Aug 2025 21:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.652853
- Title: Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection
- Title(参考訳): 新生児シーズーレ自動検出の正直かつ信頼性の高い評価と専門家等価性試験
- Authors: Jovana Kljajic, John M. O'Toole, Robert Hogan, Tamara Skoric,
- Abstract要約: 現在のプラクティスは、一貫性のない、バイアスのあるメトリクスに依存します。
AIパフォーマンスに関するエキスパートレベルの主張は、厳格な検証なしに頻繁に行われる。
本研究は、新生児発作検出の具体的な課題に合わせたベストプラクティスを提案する。
- 参考スコア(独自算出の注目度): 1.4624458429745086
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reliable evaluation of machine learning models for neonatal seizure detection is critical for clinical adoption. Current practices often rely on inconsistent and biased metrics, hindering model comparability and interpretability. Expert-level claims about AI performance are frequently made without rigorous validation, raising concerns about their reliability. This study aims to systematically evaluate common performance metrics and propose best practices tailored to the specific challenges of neonatal seizure detection. Using real and synthetic seizure annotations, we assessed standard performance metrics, consensus strategies, and human-expert level equivalence tests under varying class imbalance, inter-rater agreement, and number of raters. Matthews and Pearson's correlation coefficients outperformed the area under the curve in reflecting performance under class imbalance. Consensus types are sensitive to the number of raters and agreement level among them. Among human-expert level equivalence tests, the multi-rater Turing test using Fleiss k best captured expert-level AI performance. We recommend reporting: (1) at least one balanced metric, (2) Sensitivity, specificity, PPV and NPV, (3) Multi-rater Turing test results using Fleiss k, and (4) All the above on held-out validation set. This proposed framework provides an important prerequisite to clinical validation by enabling a thorough and honest appraisal of AI methods for neonatal seizure detection.
- Abstract(参考訳): 新生児発作検出のための機械学習モデルの信頼性評価は臨床応用に不可欠である。
現在のプラクティスは、しばしば一貫性のないバイアスのあるメトリクスに依存し、モデルのコンパラビリティと解釈可能性を妨げる。
AIパフォーマンスに関する専門家レベルの主張は、厳格な検証なしに頻繁に行われ、信頼性に関する懸念が提起される。
本研究の目的は,新生児発作検出の具体的な課題に合わせて,一般的なパフォーマンス指標を体系的に評価し,ベストプラクティスを提案することである。
本研究は, 標準性能指標, コンセンサス戦略, および, クラス不均衡, レータ間合意, レーダ数に対するヒト-専門家レベルの同値性試験を, 実・合成的アセプションアノテーションを用いて評価した。
マシューズとピアソンの相関係数は、クラス不均衡下でのパフォーマンスを反映する曲線の下での面積よりも優れていた。
合意タイプは、ラッカーの数と合意レベルに敏感である。
人間-専門家レベルの同値テストの中で、Fleiss kを用いたマルチレータチューリングテストは、専門家レベルのAIパフォーマンスを最もよく捉えている。
1) 少なくとも1つのバランスの取れた計量、(2)感度、特異性、PVおよびNPV、(3)Fleiss kを用いたマルチレータチューリング試験結果、(4) 上記の全てをホールドアウト検証セットで行うことを推奨する。
本フレームワークは新生児発作検出のためのAI手法の徹底的かつ誠実な評価を可能にすることにより,臨床的検証に重要な前提条件を提供する。
関連論文リスト
- Cohort-attention Evaluation Metric against Tied Data: Studying Performance of Classification Models in Cancer Detection [1.3767986497772466]
本稿では,これらの課題に対処するコホート・アテンション評価指標(CAT)フレームワークを提案する。
CATは患者レベルの評価、エントロピーに基づく分布重み付け、コホート重み付けの感度と特異性を導入している。
このアプローチは予測信頼性、公正性、解釈可能性を高め、AI駆動型医療スクリーニングモデルの堅牢な評価方法を提供する。
論文 参考訳(メタデータ) (2025-03-17T02:50:40Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - On Pixel-level Performance Assessment in Anomaly Detection [87.7131059062292]
異常検出法は様々な応用において顕著な成功を収めている。
しかし、特にピクセルレベルでのパフォーマンスを評価することは複雑な課題である。
本稿では,視覚的エビデンスと統計的分析により,この課題の複雑さを解明する。
論文 参考訳(メタデータ) (2023-10-25T08:02:27Z) - Testing the Consistency of Performance Scores Reported for Binary
Classification Problems [0.0]
報告された性能スコアの整合性を評価する数値的手法と推定された実験装置を紹介する。
本研究では,提案手法が不整合を効果的に検出し,研究分野の整合性を保護する方法を示す。
科学コミュニティの利益を得るために、一貫性テストはオープンソースのPythonパッケージで利用可能にしました。
論文 参考訳(メタデータ) (2023-10-19T07:04:29Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Abnormal-aware Multi-person Evaluation System with Improved Fuzzy
Weighting [0.0]
粗スクリーニングとスコア重み付きKendall-$tau$ Distanceからなる2段階スクリーニング法を選択する。
ファジィ・シンセティック・アセスメント・メソッド(FSE)を用いて、レビュアーによるスコアの重要度と信頼性を判定する。
論文 参考訳(メタデータ) (2022-05-01T03:42:43Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。