論文の概要: Automated Real-time Assessment of Intracranial Hemorrhage Detection AI Using an Ensembled Monitoring Model (EMM)
- arxiv url: http://arxiv.org/abs/2505.11738v1
- Date: Fri, 16 May 2025 22:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.813746
- Title: Automated Real-time Assessment of Intracranial Hemorrhage Detection AI Using an Ensembled Monitoring Model (EMM)
- Title(参考訳): Ensembled Monitoring Model (EMM) を用いた頭蓋内出血検出AIのリアルタイム自動評価
- Authors: Zhongnan Fang, Andrew Johnston, Lina Cheuy, Hye Sun Na, Magdalini Paschali, Camila Gonzalez, Bonnie A. Armstrong, Arogya Koirala, Derrick Laurel, Andrew Walker Campion, Michael Iv, Akshay S. Chaudhari, David B. Larson,
- Abstract要約: 本稿では,複数の専門家レビューを用いた臨床コンセンサスプラクティスに触発されたEMM(Ensembled Monitoring Model)を紹介する。
EMMは内部AIコンポーネントや中間出力へのアクセスを必要とせずに独立して動作する。
EMMがAI生成予測の信頼度をうまく分類し、異なる行動を提案することを実証する。
- 参考スコア(独自算出の注目度): 1.8767322781894276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) tools for radiology are commonly unmonitored once deployed. The lack of real-time case-by-case assessments of AI prediction confidence requires users to independently distinguish between trustworthy and unreliable AI predictions, which increases cognitive burden, reduces productivity, and potentially leads to misdiagnoses. To address these challenges, we introduce Ensembled Monitoring Model (EMM), a framework inspired by clinical consensus practices using multiple expert reviews. Designed specifically for black-box commercial AI products, EMM operates independently without requiring access to internal AI components or intermediate outputs, while still providing robust confidence measurements. Using intracranial hemorrhage detection as our test case on a large, diverse dataset of 2919 studies, we demonstrate that EMM successfully categorizes confidence in the AI-generated prediction, suggesting different actions and helping improve the overall performance of AI tools to ultimately reduce cognitive burden. Importantly, we provide key technical considerations and best practices for successfully translating EMM into clinical settings.
- Abstract(参考訳): 放射線学のための人工知能(AI)ツールは、一度配備されると監視されないことが多い。
AI予測信頼性のリアルタイムケースバイケースアセスメントが欠如しているため、ユーザーは信頼できないAI予測と信頼できないAI予測を独立して区別する必要がある。
これらの課題に対処するために,複数の専門家レビューを用いた臨床コンセンサスプラクティスに触発されたEMM(Ensembled Monitoring Model)を導入する。
ブラックボックスの商用AI製品に特化して設計されたEMMは、内部AIコンポーネントや中間出力へのアクセスを必要とせず、独立して運用されている。
EMMがAI生成予測の信頼性の分類に成功し,異なる行動を提案するとともに,AIツールの全体的な性能向上に寄与し,認知的負担を最終的に軽減することを示した。
重要なことは、EMMを臨床環境に翻訳する上で重要な技術的考察とベストプラクティスを提供することである。
関連論文リスト
- Over-Relying on Reliance: Towards Realistic Evaluations of AI-Based Clinical Decision Support [12.247046469627554]
私たちは、AIのタスクにおける信頼、信頼、受け入れ、パフォーマンスといった評価指標を超えて進むことを提唱します。
私たちはコミュニティに、AIが医療専門家にもたらす創発的な価値を計測する、生態学的に有効な、ドメインに適した研究環境を優先するよう呼びかけています。
論文 参考訳(メタデータ) (2025-04-10T03:28:56Z) - To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - From Uncertainty to Trust: Kernel Dropout for AI-Powered Medical Predictions [14.672477787408887]
信頼に値する信頼を持ったAI駆動型医療予測は、医療アプリケーションにおけるAIの責任ある使用を保証するために不可欠である。
本稿では,これらの課題に対処する新しいアプローチを提案し,カーネルモデルを用いたベイジアンモンテカルロ・ドロップアウトモデルを提案する。
限られたデータであっても、信頼性が大幅に向上し、AI駆動型医療予測の信頼構築に向けた有望なステップを提供します。
論文 参考訳(メタデータ) (2024-04-16T11:43:26Z) - New Epochs in AI Supervision: Design and Implementation of an Autonomous
Radiology AI Monitoring System [5.50085484902146]
本稿では,放射線学AI分類モデルの性能を実際に監視するための新しい手法を提案する。
予測分散と時間安定性という2つの指標を提案し、AIのパフォーマンス変化のプリエンプティブアラートに使用する。
論文 参考訳(メタデータ) (2023-11-24T06:29:04Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。