論文の概要: First, do NOHARM: towards clinically safe large language models
- arxiv url: http://arxiv.org/abs/2512.01241v1
- Date: Mon, 01 Dec 2025 03:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.668643
- Title: First, do NOHARM: towards clinically safe large language models
- Title(参考訳): 第一にNOHARM--臨床的に安全な大言語モデルに向けて
- Authors: David Wu, Fateme Nateghi Haredasht, Saloni Kumar Maharaj, Priyank Jain, Jessica Tran, Matthew Gwiazdon, Arjun Rustagi, Jenelle Jindal, Jacob M. Koshy, Vinay Kadiyala, Anup Agarwal, Bassman Tappuni, Brianna French, Sirus Jesudasen, Christopher V. Cosgriff, Rebanta Chakraborty, Jillian Caldwell, Susan Ziolkowski, David J. Iberri, Robert Diep, Rahul S. Dalal, Kira L. Newman, Kristin Galetta, J. Carl Pallais, Nancy Wei, Kathleen M. Buchheit, David I. Hong, Ernest Y. Lee, Allen Shih, Vartan Pahalyants, Tamara B. Kaplan, Vishnu Ravi, Sarita Khemani, April S. Liang, Daniel Shirvani, Advait Patil, Nicholas Marshall, Kanav Chopra, Joel Koh, Adi Badhwar, Liam G. McCoy, David J. H. Wu, Yingjie Weng, Sumant Ranji, Kevin Schulman, Nigam H. Shah, Jason Hom, Arnold Milstein, Adam Rodman, Jonathan H. Chen, Ethan Goh,
- Abstract要約: 我々は,害頻度と重症度を測定するために,100件のプライマリケアとスペシャリストのコンサルテーションケースを用いたベンチマークであるNOHARMを提案する。
31種類の大型言語モデル (LLM) で、22.2%のケースで重傷を負い、76.6%が欠席した。
最高のモデルは、一般医師の安全性(平均差9.7%、95%CI 7.0-12.5%)を上回り、多様なマルチエージェントアプローチは、ソロモデルと比較して害を減少させる。
- 参考スコア(独自算出の注目度): 4.4072363018342005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are routinely used by physicians and patients for medical advice, yet their clinical safety profiles remain poorly characterized. We present NOHARM (Numerous Options Harm Assessment for Risk in Medicine), a benchmark using 100 real primary-care-to-specialist consultation cases to measure harm frequency and severity from LLM-generated medical recommendations. NOHARM covers 10 specialties, with 12,747 expert annotations for 4,249 clinical management options. Across 31 LLMs, severe harm occurs in up to 22.2% (95% CI 21.6-22.8%) of cases, with harms of omission accounting for 76.6% (95% CI 76.4-76.8%) of errors. Safety performance is only moderately correlated (r = 0.61-0.64) with existing AI and medical knowledge benchmarks. The best models outperform generalist physicians on safety (mean difference 9.7%, 95% CI 7.0-12.5%), and a diverse multi-agent approach reduces harm compared to solo models (mean difference 8.0%, 95% CI 4.0-12.1%). Therefore, despite strong performance on existing evaluations, widely used AI models can produce severely harmful medical advice at nontrivial rates, underscoring clinical safety as a distinct performance dimension necessitating explicit measurement.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医師や患者が医療アドバイスのために日常的に使用しているが、その臨床安全プロファイルはいまだに不十分である。
本報告では, LLM による医療勧告から有害頻度と重症度を測定するために, プライマリケアとスペシャリストのコンサルテーション事例を100件使用したNOHARM(Numerous Options Harm Assessment for Risk in Medicine)について紹介する。
NOHARMは10の専門分野をカバーし、12,747の専門家アノテーションが4,249の臨床管理オプションを提供している。
31 LLM全体では、最大22.2%(95% CI 21.6-22.8%)のケースで重傷を負い、76.6%(95% CI 76.4-76.8%)のエラーがある。
安全性能は、既存のAIおよび医療知識ベンチマークと適度に相関している(r = 0.61-0.64)。
ベストモデルは一般医師の安全性(平均差9.7%、95%CI 7.0-12.5%)を上回り、多様なマルチエージェントアプローチは単独モデル(平均差8.0%、95%CI 4.0-12.1%)と比較して害を減少させる。
したがって、既存の評価に強いパフォーマンスがあるにもかかわらず、広く使用されているAIモデルは、非自明な速度で深刻な医療アドバイスを生み出すことができ、明確な測定を必要とする特定のパフォーマンスの次元として臨床安全性を強調できる。
関連論文リスト
- EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。
臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。
13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文 参考訳(メタデータ) (2025-07-31T12:10:00Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - RiskAgent: Autonomous Medical AI Copilot for Generalist Risk Prediction [27.520717720270415]
本稿では,幅広い医療リスク予測を行うためのリスクエージェントシステムを提案する。
RiskAgentは、心臓血管疾患や癌など、様々な複雑な疾患の387以上のリスクシナリオをカバーしている。
我々は、リスク予測に特化した最初のベンチマークMedRiskを構築した。その中には、154の疾患、86の症状、50の専門性、24の臓器システムを含む12,352の質問が含まれている。
論文 参考訳(メタデータ) (2025-03-05T18:46:51Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Private, fair and accurate: Training large-scale, privacy-preserving AI models in medical imaging [47.99192239793597]
我々は,AIモデルのプライバシ保護トレーニングが,非プライベートトレーニングと比較して精度と公平性に与える影響を評価した。
我々の研究は、実際の臨床データセットの困難な現実的な状況下では、診断深層学習モデルのプライバシー保護トレーニングは、優れた診断精度と公正さで可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-03T09:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。