論文の概要: Evaluation of Predictive Reliability to Foster Trust in Artificial
Intelligence. A case study in Multiple Sclerosis
- arxiv url: http://arxiv.org/abs/2402.17554v1
- Date: Tue, 27 Feb 2024 14:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:55:12.334641
- Title: Evaluation of Predictive Reliability to Foster Trust in Artificial
Intelligence. A case study in Multiple Sclerosis
- Title(参考訳): 人工知能の信頼を育むための予測信頼性の評価
多発性硬化症の1例
- Authors: Lorenzo Peracchio, Giovanna Nicora, Enea Parimbelli, Tommaso Mario
Buonocore, Roberto Bergamaschi, Eleonora Tavazzi, Arianna Dagliati, Riccardo
Bellazzi
- Abstract要約: 機械学習の失敗のスポッティングは、ML予測を使用して臨床上の決定を下す場合、最重要事項である。
我々は,任意のMLモデルのデプロイメントフェーズで使用可能なシンプルなアプローチを提案し,予測を信頼するか否かを提案する。
本手法は,デプロイメント中のML障害の可能性を見極めることによって,臨床医に効果的な支援を提供することを約束する。
- 参考スコア(独自算出の注目度): 0.34473740271026115
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Applying Artificial Intelligence (AI) and Machine Learning (ML) in critical
contexts, such as medicine, requires the implementation of safety measures to
reduce risks of harm in case of prediction errors. Spotting ML failures is of
paramount importance when ML predictions are used to drive clinical decisions.
ML predictive reliability measures the degree of trust of a ML prediction on a
new instance, thus allowing decision-makers to accept or reject it based on its
reliability. To assess reliability, we propose a method that implements two
principles. First, our approach evaluates whether an instance to be classified
is coming from the same distribution of the training set. To do this, we
leverage Autoencoders (AEs) ability to reconstruct the training set with low
error. An instance is considered Out-of-Distribution (OOD) if the AE
reconstructs it with a high error. Second, it is evaluated whether the ML
classifier has good performances on samples similar to the newly classified
instance by using a proxy model. We show that this approach is able to assess
reliability both in a simulated scenario and on a model trained to predict
disease progression of Multiple Sclerosis patients. We also developed a Python
package, named relAI, to embed reliability measures into ML pipelines. We
propose a simple approach that can be used in the deployment phase of any ML
model to suggest whether to trust predictions or not. Our method holds the
promise to provide effective support to clinicians by spotting potential ML
failures during deployment.
- Abstract(参考訳): 医療などの重要な文脈で人工知能(AI)と機械学習(ML)を適用するには、予測エラーのリスクを低減するための安全対策の実施が必要である。
ML障害の発見は、ML予測を使用して臨床上の決定を下す場合、最も重要である。
ML予測信頼性は、新しいインスタンス上でのML予測の信頼度を測定し、意思決定者がその信頼性に基づいてそれを受け入れたり拒否したりすることを可能にする。
信頼性を評価するために,2つの原則を実装した手法を提案する。
まず、分類対象のインスタンスがトレーニングセットの同じ分布から来ているかどうかを評価する。
そのため、オートエンコーダ(AE)機能を活用し、低エラーでトレーニングセットを再構築する。
インスタンスは、AEが高いエラーで再構成した場合、OOD(Out-of-Distribution)と見なされる。
第2に、プロキシモデルを用いて、新たに分類されたインスタンスに似たサンプルに対して、ML分類器が優れた性能を持つかどうかを評価する。
本手法は,多発性硬化症患者の疾患進行予測モデルとシミュレーションシナリオの両方において信頼性を評価することができることを示す。
信頼性対策をMLパイプラインに組み込むために,relAIというPythonパッケージも開発した。
我々は,任意のMLモデルのデプロイメントフェーズで使用可能なシンプルなアプローチを提案し,予測を信頼するか否かを提案する。
本手法は, デプロイメント中のML障害の可能性を見極めることによって, 臨床医に効果的な支援を提供することを約束する。
関連論文リスト
- Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Automated Trustworthiness Testing for Machine Learning Classifiers [3.3423762257383207]
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。
我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。
その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
論文 参考訳(メタデータ) (2024-06-07T20:25:05Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Dynamic Model Agnostic Reliability Evaluation of Machine-Learning
Methods Integrated in Instrumentation & Control Systems [1.8978726202765634]
データ駆動型ニューラルネットワークベースの機械学習アルゴリズムの信頼性は十分に評価されていない。
National Institute for Standards and Technologyの最近のレポートでは、MLにおける信頼性は採用にとって重要な障壁となっている。
トレーニングデータセットにアウト・オブ・ディストリビューション検出を組み込むことにより、ML予測の相対的信頼性を評価するためのリアルタイムモデル非依存手法を実証する。
論文 参考訳(メタデータ) (2023-08-08T18:25:42Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Distillation to Enhance the Portability of Risk Models Across
Institutions with Large Patient Claims Database [12.452703677540505]
可読性予測モデルのクロスサイト評価によるモデルポータビリティの実現性について検討する。
再帰型ニューラルネットワークを自己注意で拡張し、専門家の特徴とブレンドして、可読性予測モデルを構築する。
実験の結果、ある機関で訓練・試験されたMLモデルの直接適用は、同一施設で訓練・試験されたMLモデルよりも悪い結果が得られた。
論文 参考訳(メタデータ) (2022-07-06T05:26:32Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - When Does Uncertainty Matter?: Understanding the Impact of Predictive
Uncertainty in ML Assisted Decision Making [68.19284302320146]
我々は,異なるレベルの専門知識を持つ人々が,異なるタイプの予測不確実性にどう反応するかを評価するために,ユーザスタディを実施している。
その結果,後続の予測分布を示すことは,MLモデルの予測との相違点が小さくなることがわかった。
このことは、後続の予測分布は、人間の分布の種類や専門性を考慮し、注意を払って使用するべき有用な決定支援として役立つ可能性があることを示唆している。
論文 参考訳(メタデータ) (2020-11-12T02:23:53Z) - Prediction Confidence from Neighbors [0.0]
機械学習(ML)モデルがOoD(out-of-distribution)サンプルから正しい予測を抽出することができないことは、重要なアプリケーションにMLを適用する上で大きな障害となる。
特徴空間距離は予測に自信を与える有意義な尺度であることを示す。
これにより、重要なアプリケーションにおけるモデルの早期かつ安全なデプロイが可能になり、常に変化する条件下でのモデルのデプロイには不可欠である。
論文 参考訳(メタデータ) (2020-03-31T09:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。