論文の概要: Beyond Perfect Scores: Proof-by-Contradiction for Trustworthy Machine Learning
- arxiv url: http://arxiv.org/abs/2601.06704v1
- Date: Sat, 10 Jan 2026 22:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.948027
- Title: Beyond Perfect Scores: Proof-by-Contradiction for Trustworthy Machine Learning
- Title(参考訳): 完璧なスコアを超えて: 信頼できる機械学習の実証と対比
- Authors: Dushan N. Wadduwage, Dineth Jayakody, Leonidas Zimianitis,
- Abstract要約: モデルが真の臨床的手がかりに依存しているか、あるいはデータの急激な相関に依存しているかは、しばしば不明である。
本稿では, 証明・比較に基づく信頼性試験について述べる。
我々のアプローチは、潜在的な成果フレームワークに基づいて、スプリアスラベルを慎重にトレーニングし、テストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models show strong promise for new biomedical prediction tasks, but concerns about trustworthiness have hindered their clinical adoption. In particular, it is often unclear whether a model relies on true clinical cues or on spurious hierarchical correlations in the data. This paper introduces a simple yet broadly applicable trustworthiness test grounded in stochastic proof-by-contradiction. Instead of just showing high test performance, our approach trains and tests on spurious labels carefully permuted based on a potential outcomes framework. A truly trustworthy model should fail under such label permutation; comparable accuracy across real and permuted labels indicates overfitting, shortcut learning, or data leakage. Our approach quantifies this behavior through interpretable Fisher-style p-values, which are well understood by domain experts across medical and life sciences. We evaluate our approach on multiple new bacterial diagnostics to separate tasks and models learning genuine causal relationships from those driven by dataset artifacts or statistical coincidences. Our work establishes a foundation to build rigor and trust between ML and life-science research communities, moving ML models one step closer to clinical adoption.
- Abstract(参考訳): 機械学習(ML)モデルは、新しいバイオメディカル予測タスクを強く約束するが、信頼性に関する懸念が臨床導入を妨げる。
特に、モデルが真の臨床的手がかりに依存するか、あるいはデータの急激な階層的相関に依存するかは、しばしば不明である。
本稿では,確率的証明に基づく簡易かつ広く適用可能な信頼性試験を提案する。
高いテストパフォーマンスを示す代わりに、私たちのアプローチは、潜在的な結果フレームワークに基づいて、スプリアスラベルを慎重にトレーニングし、テストします。
実際のラベルと置換されたラベルに匹敵する精度は、過度な適合性、ショートカット学習、あるいはデータ漏洩を示す。
本手法は, 医学・生命科学分野の専門家によってよく理解されている, 解釈可能なフィッシャー型p値を用いて, この挙動を定量化する。
我々は,複数の新しい細菌診断手法によるタスクの分離と,データセットのアーティファクトや統計的偶然による真正因果関係の学習モデルの評価を行った。
我々の研究は、MLと生命科学研究コミュニティの間の厳格な信頼を構築するための基盤を確立し、MLモデルを臨床導入に一歩近づいた。
関連論文リスト
- Towards a Certificate of Trust: Task-Aware OOD Detection for Scientific AI [18.927559053107842]
スコアベース拡散モデルを用いて関節確率を推定する新しいOOD検出法を提案する。
このアプローチは入力だけでなく回帰モデルの予測も考慮し、タスク対応の信頼性スコアを提供する。
我々の研究は「信頼の証明」を構築するための基本的なステップを提供し、それによってAIベースの予測の信頼性を評価するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-09-29T17:21:25Z) - Label Uncertainty for Ultrasound Segmentation [25.682215047694168]
医用画像では、放射線医の間でのサーバ間変動は、しばしばラベルの不確実性をもたらす。
我々は、専門家が供給する画素ごとの信頼度値を用いて、AIモデルのラベル付けとトレーニングの両方に新しいアプローチを導入する。
論文 参考訳(メタデータ) (2025-08-21T15:00:21Z) - Inadequacy of common stochastic neural networks for reliable clinical
decision support [0.4262974002462632]
医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。
しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。
本研究は臨床応用における信頼性について考察する。
論文 参考訳(メタデータ) (2024-01-24T18:49:30Z) - MELEP: A Novel Predictive Measure of Transferability in Multi-Label ECG Diagnosis [1.3654846342364306]
本稿では,事前学習したモデルから下流のECG診断タスクへの知識伝達の有効性を推定する手段であるMELEPを紹介する。
実験により、MELEPは、小・不均衡のECGデータに基づいて、事前学習した畳み込みと繰り返しの深部ニューラルネットワークの性能を予測できることを示した。
論文 参考訳(メタデータ) (2023-10-27T14:57:10Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Conformal Prediction Under Feedback Covariate Shift for Biomolecular Design [56.86533144730384]
本稿では,トレーニングデータとテストデータが統計的に依存した環境での予測不確実性を定量化する手法を提案する。
モチベーション・ユースケースとして,本手法が設計したタンパク質の適合性予測の不確かさを定量化する方法を実データで示す。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Reliable and Trustworthy Machine Learning for Health Using Dataset Shift
Detection [7.263558963357268]
予測不能なMLモデルの振る舞いは、特に健康領域において、その安全性に対する深刻な懸念を引き起こす。
マハラノビス距離およびグラム行列に基づく分布外検出法は,分布外データを高精度に検出できることを示す。
次に、アウト・オブ・ディストリビューションスコアを人間の解釈可能なConFIDENCE SCOREに変換し、ユーザーの健康MLアプリケーションとのインタラクションに与える影響を調査する。
論文 参考訳(メタデータ) (2021-10-26T20:49:01Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。