論文の概要: Validity problems in clinical machine learning by indirect data labeling
using consensus definitions
- arxiv url: http://arxiv.org/abs/2311.03037v1
- Date: Mon, 6 Nov 2023 11:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 14:34:24.796537
- Title: Validity problems in clinical machine learning by indirect data labeling
using consensus definitions
- Title(参考訳): コンセンサス定義を用いた間接データラベリングによる臨床機械学習の妥当性問題
- Authors: Michael Hagmann and Shigehiko Schamoni and Stefan Riezler
- Abstract要約: 医学における疾患診断の重要領域における機械学習の有効性を実証する。
トレーニングデータのターゲットラベルが間接測定によって決定されたときに発生するものであり、この間接測定を決定するために必要な基本的な測定が入力データ表現に含まれる。
- 参考スコア(独自算出の注目度): 18.18186817228833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate a validity problem of machine learning in the vital
application area of disease diagnosis in medicine. It arises when target labels
in training data are determined by an indirect measurement, and the fundamental
measurements needed to determine this indirect measurement are included in the
input data representation. Machine learning models trained on this data will
learn nothing else but to exactly reconstruct the known target definition. Such
models show perfect performance on similarly constructed test data but will
fail catastrophically on real-world examples where the defining fundamental
measurements are not or only incompletely available. We present a general
procedure allowing identification of problematic datasets and black-box machine
learning models trained on them, and exemplify our detection procedure on the
task of early prediction of sepsis.
- Abstract(参考訳): 医療における疾患診断の必須応用分野における機械学習の有効性を実証する。
訓練データ中の目標ラベルが間接測定によって決定されると、この間接測定を決定するために必要な基本的な測定が入力データ表現に含まれる。
このデータに基づいてトレーニングされた機械学習モデルは、既知のターゲット定義を正確に再構築する以外に何も学ばない。
このようなモデルも同様に構築されたテストデータで完璧に性能を示すが、基本的な測定値の定義が不完全である、あるいは不完全である実例では壊滅的に失敗する。
本稿では,問題のあるデータセットとブラックボックス機械学習モデルの識別を可能にする一般的な手順を提案し,敗血症の早期予測タスクにおける検出手順を例示する。
関連論文リスト
- Diagnosing Medical Datasets with Training Dynamics [0.0]
本研究は,人間のアノテーションの代替としてトレーニング力学を用いる可能性について検討する。
このフレームワークは、データポイントを、簡単に学習できる、学習しにくい、あいまいなカテゴリに分類する。
データマップフレームワークの医療領域への実現可能性と移行性を評価するため,包括的評価を行った。
論文 参考訳(メタデータ) (2024-11-03T18:37:35Z) - Transfer Learning for Real-time Deployment of a Screening Tool for
Depression Detection Using Actigraphy [8.430502131775722]
本稿では,利用者のアクチグラフィーデータに基づいて,うつ病スクリーニングツールをリアルタイムに展開するために,二次データセットに基づいて訓練されたモデルから移行学習に基づくアプローチを提案する。
プライマリセット上で行った1つの横断検証アプローチの修正版では平均精度が0.96となり、各プライマリセットからのデータはテストのために別々に設定された。
論文 参考訳(メタデータ) (2023-03-14T12:37:22Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - False perfection in machine prediction: Detecting and assessing
circularity problems in machine learning [11.878820609988695]
医療情報学や特許法などの重要な応用分野における機械学習の問題点を実証する。
入力データの表現に目的の出力が決定論的に定義されている測定値を含めると、完璧だが円形な予測が導かれる。
実世界のアプリケーションへの研究結果の転送には,データ表現から対象結果を定義する計測を分離することにより,円周性を回避する必要がある,と我々は主張する。
論文 参考訳(メタデータ) (2021-06-23T14:11:06Z) - Attack-agnostic Adversarial Detection on Medical Data Using Explainable
Machine Learning [0.0]
本論文では,2つのデータセット上での対比サンプルの正確な検出のためのモデル非依存説明性に基づく手法を提案する。
MIMIC-IIIとHenan-Renmin EHRのデータセットでは,縦軸攻撃に対する検出精度は77%であった。
MIMIC-CXRデータセットでは88%の精度を実現し、すべての設定において、両方のデータセットにおける敵検出技術の現状を10%以上改善した。
論文 参考訳(メタデータ) (2021-05-05T10:01:53Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Trajectories, bifurcations and pseudotime in large clinical datasets:
applications to myocardial infarction and diabetes data [94.37521840642141]
混合データ型と欠落値を特徴とする大規模臨床データセット分析のための半教師付き方法論を提案する。
この手法は、次元の減少、データの可視化、クラスタリング、特徴の選択と、部分的に順序付けられた観測列における測地距離(擬時)の定量化のタスクを同時に扱うことのできる弾性主グラフの適用に基づいている。
論文 参考訳(メタデータ) (2020-07-07T21:04:55Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - An Extensive Study on Cross-Dataset Bias and Evaluation Metrics
Interpretation for Machine Learning applied to Gastrointestinal Tract
Abnormality Classification [2.985964157078619]
GI領域における疾患の自動解析は、コンピュータ科学や医学関連雑誌でホットな話題となっている。
クロスデータセットによる評価指標と機械学習モデルの明確な理解は、この分野の研究を新たな品質レベルに導くために不可欠である。
16種類のGIトラクタ条件を分類できる5つの異なる機械学習モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2020-05-08T08:59:31Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。