論文の概要: An autonomous agent for auditing and improving the reliability of clinical AI models
- arxiv url: http://arxiv.org/abs/2507.05755v1
- Date: Tue, 08 Jul 2025 07:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.739412
- Title: An autonomous agent for auditing and improving the reliability of clinical AI models
- Title(参考訳): 臨床AIモデルの監査と信頼性向上のための自律エージェント
- Authors: Lukas Kuhn, Florian Buettner,
- Abstract要約: 本稿では,ユーザと対話する自己表現型エージェントであるModelAuditorを紹介する。
ModelAuditorはコンテキストに依存し、臨床的に関連する分布シフトをシミュレートする。
そして、デプロイ中にパフォーマンスがどの程度低下するかを説明する解釈可能なレポートを生成する。
- 参考スコア(独自算出の注目度): 11.225863068085266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of AI models in clinical practice faces a critical challenge: models achieving expert-level performance on benchmarks can fail catastrophically when confronted with real-world variations in medical imaging. Minor shifts in scanner hardware, lighting or demographics can erode accuracy, but currently reliability auditing to identify such catastrophic failure cases before deployment is a bespoke and time-consuming process. Practitioners lack accessible and interpretable tools to expose and repair hidden failure modes. Here we introduce ModelAuditor, a self-reflective agent that converses with users, selects task-specific metrics, and simulates context-dependent, clinically relevant distribution shifts. ModelAuditor then generates interpretable reports explaining how much performance likely degrades during deployment, discussing specific likely failure modes and identifying root causes and mitigation strategies. Our comprehensive evaluation across three real-world clinical scenarios - inter-institutional variation in histopathology, demographic shifts in dermatology, and equipment heterogeneity in chest radiography - demonstrates that ModelAuditor is able correctly identify context-specific failure modes of state-of-the-art models such as the established SIIM-ISIC melanoma classifier. Its targeted recommendations recover 15-25% of performance lost under real-world distribution shift, substantially outperforming both baseline models and state-of-the-art augmentation methods. These improvements are achieved through a multi-agent architecture and execute on consumer hardware in under 10 minutes, costing less than US$0.50 per audit.
- Abstract(参考訳): ベンチマークで専門家レベルのパフォーマンスを達成するモデルは、医用画像の現実的なバリエーションに直面すると、破滅的に失敗する可能性がある。
スキャナハードウェア、照明、人口統計学の微妙なシフトは正確さを損なう可能性があるが、現在、デプロイ前に破滅的な障害ケースを特定するための信頼性監査は、目覚ましい、時間を要するプロセスである。
隠れた障害モードを公開し、修復するための、アクセス可能で解釈可能なツールが欠如している。
ここでは、ユーザと会話し、タスク固有のメトリクスを選択し、コンテキストに依存し、臨床的に関連する分布シフトをシミュレートする自己反射型エージェントであるModelAuditorを紹介する。
その後ModelAuditorは、デプロイメント中にパフォーマンスがどの程度低下するかを説明する解釈可能なレポートを生成し、特定の障害モードについて議論し、根本原因と緩和戦略を特定する。
胸部X線撮影における病理組織学の制度的変化,皮膚学の人口動態,機器の不均一性の3つの臨床シナリオの包括的評価は,確立されたSIIM-ISICメラノーマ分類器などの最先端モデルのコンテキスト特異的な障害モードを正確に同定できることを実証している。
ターゲットとなるレコメンデーションは、現実世界の流通シフトで失われるパフォーマンスの15-25%を回復し、ベースラインモデルと最先端の拡張手法の両方を著しく上回っている。
これらの改善はマルチエージェントアーキテクチャを通じて達成され、コンシューマハードウェア上で10分以内で実行される。
関連論文リスト
- Iterative Misclassification Error Training (IMET): An Optimized Neural Network Training Technique for Image Classification [0.5115559623386964]
カリキュラム学習とコアセット選択に触発された新しいフレームワークであるIMET(Iterative Misclassification Error Training)を紹介する。
IMETは、トレーニングプロセスの合理化を図りつつ、エッジケースに対するモデルの注意を先入観的かつ稀な結果に優先順位付けしながら、誤分類されたサンプルを特定することを目的としている。
本稿では,最新のResNetアーキテクチャに対するベンチマーク医用画像分類データセット上でのIMETの性能を評価する。
論文 参考訳(メタデータ) (2025-07-01T04:14:16Z) - Keeping Medical AI Healthy: A Review of Detection and Correction Methods for System Degradation [6.781778751487079]
このレビューでは、医療におけるAIシステムの「健康」の監視と維持について、前向きな視点を提示する。
継続的パフォーマンス監視、早期劣化検出、効果的な自己補正メカニズムの緊急ニーズを強調します。
この研究は、ダイナミックな臨床環境における安全な長期展開を維持できる信頼性が高く堅牢な医療AIシステムの開発を導くことを目的としている。
論文 参考訳(メタデータ) (2025-06-20T19:22:07Z) - Examining Deployment and Refinement of the VIOLA-AI Intracranial Hemorrhage Model Using an Interactive NeoMedSys Platform [0.6582858408923039]
現在の研究では、AIモデルの効率的なデプロイメントと改善を可能にする、NeoMedSysと呼ばれる放射線学ソフトウェアプラットフォームについて説明している。
実地臨床環境でのNeoMedSysの実行可能性と有効性について検討した。
論文 参考訳(メタデータ) (2025-05-14T13:33:38Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Generalizable automated ischaemic stroke lesion segmentation with vision transformers [0.7400397057238803]
拡散強調画像(DWI)は虚血性脳梗塞において最も高い発現率を示す。
したがって、現在のU-Netベースのモデルは、不適切な評価指標によってアクセント付けられる問題として、性能が劣っている。
本稿ではこれらの課題に対処する高性能なDWI病変分割ツールを提案する。
論文 参考訳(メタデータ) (2025-02-10T19:00:00Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Unmasking Dementia Detection by Masking Input Gradients: A JSM Approach
to Model Interpretability and Precision [1.5501208213584152]
本稿では,多段階進行に対するアルツハイマー病(AD)分類の解釈可能なマルチモーダルモデルを導入し,ヤコビアン・サリエンシ・マップ(JSM)をモダリティに依存しないツールとして組み込んだ。
アブレーション研究を含む評価では、モデルデバッグと解釈にJSMを用いることの有効性が示され、モデル精度も著しく向上した。
論文 参考訳(メタデータ) (2024-02-25T06:53:35Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。
複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文 参考訳(メタデータ) (2021-02-11T11:22:20Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。