Fugu-MT 論文翻訳(概要): Consensus statement on the credibility assessment of ML predictors

論文の概要: Consensus statement on the credibility assessment of ML predictors

arxiv url: http://arxiv.org/abs/2501.18415v1
Date: Thu, 30 Jan 2025 15:14:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.204437
Title: Consensus statement on the credibility assessment of ML predictors
Title（参考訳）: ML予測器の信頼性評価に関する合意文
Authors: Alessandra Aldieri, Thiranja Prasad Babarenda Gamage, Antonino Amedeo La Mattina, Yi Li, Axel Loewe, Francesco Pappalardo, Marco Viceconti Italy,
Abstract要約: 本稿では,In Silico World Community of Practiceの専門家によるコンセンサスステートメントについて述べる。 ML予測器の信頼性を評価するための理論基盤を形成する12のキーステートメントについて概説する。本勧告は,臨床および生医学的文脈におけるML予測器の厳格な評価と展開を研究者,開発者,規制当局に案内することを目的としている。
参考スコア（独自算出の注目度）: 39.43805485379927
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The rapid integration of machine learning (ML) predictors into in silico medicine has revolutionized the estimation of quantities of interest (QIs) that are otherwise challenging to measure directly. However, the credibility of these predictors is critical, especially when they inform high-stakes healthcare decisions. This position paper presents a consensus statement developed by experts within the In Silico World Community of Practice. We outline twelve key statements forming the theoretical foundation for evaluating the credibility of ML predictors, emphasizing the necessity of causal knowledge, rigorous error quantification, and robustness to biases. By comparing ML predictors with biophysical models, we highlight unique challenges associated with implicit causal knowledge and propose strategies to ensure reliability and applicability. Our recommendations aim to guide researchers, developers, and regulators in the rigorous assessment and deployment of ML predictors in clinical and biomedical contexts.
Abstract（参考訳）: 機械学習(ML)予測器のサイコ医学への迅速な統合は、直接測定することが困難な関心量(QI)の推定に革命をもたらした。しかし、これらの予測器の信頼性は、特に高い医療判断を通知する場合に重要である。本稿では,In Silico World Community of Practiceの専門家によるコンセンサスステートメントについて述べる。 ML予測器の信頼性を評価する理論的基盤を形成する12のキーステートメントを概説し,因果的知識の必要性,厳密な誤り量化,バイアスに対する堅牢性を強調した。 ML予測器を生体物理モデルと比較することにより、暗黙の因果知識に関連するユニークな課題を強調し、信頼性と適用性を確保するための戦略を提案する。本勧告は,臨床および生医学的文脈におけるML予測器の厳格な評価と展開を研究者,開発者,規制当局に案内することを目的としている。

関連論文リスト

Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
Automating Expert-Level Medical Reasoning Evaluation of Large Language Models [26.702477426812333]
我々はMedThink-Benchを紹介した。MedThink-Benchは、大規模言語モデルの医学的推論の厳密で説明可能な、スケーラブルな評価のためのベンチマークである。また, LLM-as-a-Judge 機構と精細な有理性を利用した新しい評価フレームワーク LLM-w-Ref を提案する。全体として、MedThink-Bench は LLM の医学的推論を評価し、安全で責任ある臨床実践の展開を進めるための基礎的なツールを提供している。
論文参考訳（メタデータ） (2025-07-10T17:58:26Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
The challenge of uncertainty quantification of large language models in medicine [0.0]
本研究では,医学応用のための大規模言語モデル(LLM)の不確実性定量化について検討する。私たちの研究は、不確実性を障壁としてではなく、AI設計に対する動的で反射的なアプローチを招待する知識の不可欠な部分として捉えています。
論文参考訳（メタデータ） (2025-04-07T17:24:11Z)
Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。 MIMIC-IIIでは最大10.8～15.0%、MIMIC-IVでは12.6～12.7%である。
論文参考訳（メタデータ） (2024-10-06T18:46:28Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Reviewing AI's Role in Non-Muscle-Invasive Bladder Cancer Recurrence Prediction [0.4369058206183195]
非筋浸潤性膀胱癌(NMIBC)は人体に重大な負担を課し、治療に最も費用がかかるがんの1つである。 NMIBCの再発を予測するための現在のツールは、しばしばリスクを過大評価し、精度が低いスコアシステムに依存している。機械学習(ML)ベースの技術は、分子および臨床データを活用することでNMIBC再発を予測するための有望なアプローチとして登場した。
論文参考訳（メタデータ） (2024-03-15T17:03:45Z)
Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks [0.6282171844772422]
大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
論文参考訳（メタデータ） (2024-02-16T09:29:38Z)
Explainable AI for clinical risk prediction: a survey of concepts, methods, and modalities [2.9404725327650767]
臨床リスク予測のための説明可能なモデルの開発状況外部検証の必要性と多様な解釈可能性メソッドの組み合わせを強調している。臨床リスク予測における説明可能性へのエンドツーエンドアプローチは成功に不可欠である。
論文参考訳（メタデータ） (2023-08-16T14:51:51Z)
Informing clinical assessment by contextualizing post-hoc explanations of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文参考訳（メタデータ） (2023-02-11T18:07:11Z)
Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文参考訳（メタデータ） (2022-07-21T09:35:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。