Fugu-MT 論文翻訳(概要): Metric Hub: A metric library and practical selection workflow for use-case-driven data quality assessment in medical AI

論文の概要: Metric Hub: A metric library and practical selection workflow for use-case-driven data quality assessment in medical AI

arxiv url: http://arxiv.org/abs/2601.22702v1
Date: Fri, 30 Jan 2026 08:22:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-02 18:28:15.32056
Title: Metric Hub: A metric library and practical selection workflow for use-case-driven data quality assessment in medical AI
Title（参考訳）: Metric Hub: 医療用AIにおけるユースケース駆動型データ品質評価のためのメトリックライブラリと実践的選択ワークフロー
Authors: Katinka Becker, Maximilian P. Oppelt, Tobias S. Zech, Martin Seyferth, Sandie Cabon, Vanja Miskovic, Ivan Cimrak, Michal Kozubek, Giuseppe D'Avenio, Ilaria Campioni, Jana Fehr, Kanjar De, Ismail Mahmoudi, Emilio Dolgener Cantu, Laurenz Ottmann, Andreas Klaß, Galaad Altares, Jackie Ma, Alireza Salehi M., Nadine R. Lang-Richter, Tobias Schaeffter, Daniel Schwabe,
Abstract要約: データ品質の次元を実際に測定するためのデータ品質指標のコレクションを導入します。提案手法がPTB-XL ECGデータセットに与える影響を例に示す。
参考スコア（独自算出の注目度）: 1.9346781842015641
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning (ML) in medicine has transitioned from research to concrete applications aimed at supporting several medical purposes like therapy selection, monitoring and treatment. Acceptance and effective adoption by clinicians and patients, as well as regulatory approval, require evidence of trustworthiness. A major factor for the development of trustworthy AI is the quantification of data quality for AI model training and testing. We have recently proposed the METRIC-framework for systematically evaluating the suitability (fit-for-purpose) of data for medical ML for a given task. Here, we operationalize this theoretical framework by introducing a collection of data quality metrics - the metric library - for practically measuring data quality dimensions. For each metric, we provide a metric card with the most important information, including definition, applicability, examples, pitfalls and recommendations, to support the understanding and implementation of these metrics. Furthermore, we discuss strategies and provide decision trees for choosing an appropriate set of data quality metrics from the metric library given specific use cases. We demonstrate the impact of our approach exemplarily on the PTB-XL ECG-dataset. This is a first step to enable fit-for-purpose evaluation of training and test data in practice as the base for establishing trustworthy AI in medicine.
Abstract（参考訳）: 医学における機械学習(ML)は、治療の選択、モニタリング、治療など、いくつかの医療目的をサポートするための研究から具体的な応用へと移行してきた。臨床医や患者による受容と効果的な採用、および規制の承認は、信頼性の証拠を必要とする。信頼できるAIを開発する上での大きな要因は、AIモデルのトレーニングとテストのためのデータ品質の定量化である。我々は最近,特定のタスクに対する医療MLのデータ適合性(目的に適した)を体系的に評価するためのMETRICフレームワークを提案している。ここでは、データ品質の次元を実際に測定するためのデータ品質指標(メトリックライブラリ)のコレクションを導入することで、この理論的枠組みを運用する。各メトリクスに対して、これらのメトリクスの理解と実装をサポートするために、定義、適用性、例、落とし穴、レコメンデーションを含む最も重要な情報を備えたメトリックカードを提供します。さらに,特定のユースケースを考慮に入れたメートル法ライブラリから,適切なデータ品質指標を選択するための戦略と決定木を提供する。提案手法がPTB-XL ECGデータセットに与える影響を例に示す。これは、医学において信頼できるAIを確立するための基盤として、実際にトレーニングとテストデータの適切な評価を可能にするための最初のステップである。

関連論文リスト

Lightweight Clinical Decision Support System using QLoRA-Fine-Tuned LLMs and Retrieval-Augmented Generation [0.0]
本研究では,医療におけるLarge Language Models(LLM)の適用について検討する。我々は、病院固有のデータと統合された検索型RAG(Retrieval-Augmented Generation)による医療意思決定支援と、量子化低ランク適応(QLoRA)を用いた微調整に焦点を当てる。我々は、患者のプライバシ、データセキュリティ、厳格な臨床検証の必要性、およびそのようなシステムを現実の医療に組み込むための実践的な課題など、倫理的な配慮に目を向ける。
論文参考訳（メタデータ） (2025-05-06T10:31:54Z)
MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0]
医療大言語モデル(MLLM)は医療応用の可能性を示している。幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文参考訳（メタデータ） (2024-12-25T16:51:29Z)
The METRIC-framework for assessing data quality for trustworthy AI in medicine: a systematic review [0.0]
信頼できるAIの開発は特に医学において重要である。ディープラーニング(DL)におけるデータ品質(トレーニング/テスト)の重要性に焦点を当てる。本稿では,医療訓練データのための特化データ品質フレームワークであるMETRICフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-21T09:15:46Z)
Large Language Models for Biomedical Knowledge Graph Construction: Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。 KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文参考訳（メタデータ） (2023-01-29T15:52:33Z)
Measuring Data [79.89948814583805]
我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
論文参考訳（メタデータ） (2022-12-09T22:10:46Z)
Metrics reloaded: Recommendations for image analysis validation [59.60445111432934]
メトリクスのリロード(Metrics Reloaded)は、メトリクスの問題を意識した選択において研究者を導く包括的なフレームワークである。このフレームワークは多段階のDelphiプロセスで開発され、問題指紋という新しい概念に基づいている。問題指紋に基づいて、ユーザは適切なバリデーションメトリクスを選択して適用するプロセスを通じてガイドされる。
論文参考訳（メタデータ） (2022-06-03T15:56:51Z)
MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。 MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文参考訳（メタデータ） (2021-09-29T18:09:41Z)
Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文参考訳（メタデータ） (2020-12-10T13:56:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。