論文の概要: SafeMed-R1: Clinician-Audited Safety and Ethics Alignment for Medical Large Language Models
- arxiv url: http://arxiv.org/abs/2605.28338v1
- Date: Wed, 27 May 2026 11:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.01163
- Title: SafeMed-R1: Clinician-Audited Safety and Ethics Alignment for Medical Large Language Models
- Title(参考訳): SafeMed-R1:医療用大規模言語モデルの安全・倫理アライメント
- Authors: Chao Ding, Mouxiao Bian, Tianbin Li, Minjia Yuan, Yidong Jiang, Yankai Jiang, Jinru Ding, Jiayuan Chen, Zhuangzhi Gao, Pengcheng Chen, Zhao He, Rongzhao Zhang, Meiling Liu, Luyi Jiang, Jie Xu,
- Abstract要約: 我々は、トレース可能な臨床信頼信号パイプラインで訓練されたSafeMed-R1を提案する。
SafeMed-R1のマクロ平均精度は、臨床ベンチマークで79.6%である。
- 参考スコア(独自算出の注目度): 8.624628230325413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models(LLMs) increasingly match expert performance on licensing examinations, yet routine clinical use remains limited because governance requires auditable reasoning, safety and ethics alignment, and resilience to adversarial misuse. Here we present SafeMed-R1, trained with a traceable Clinical Trust Signals(CTS) pipeline that links each reasoning instance to clinician rubric scores and edit histories, and aligned through safety and ethics supervision and red team stress testing. SafeMed-R1 attains a macro-averaged accuracy of 79.6% across clinical benchmarks. Under adversarial safety testing, it shows the lowest aggregated risk and reduces unsafe outputs by about 3 to 5% relative to its baseline. In a paired expert study of 30 medication safety vignettes, SafeMed-R1 matches PGY1 and PGY2 residents on medical correctness and scores higher for medication safety, guideline consistency, and clinical usefulness. Collectively, these results suggest that clinician-audited supervision provenance, together with domain-tailored safety and ethics alignment, can strengthen governance-relevant evidence without relying on inference-time retrieval or citation grounding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ライセンス試験において専門家のパフォーマンスに適合する傾向にあるが、ガバナンスには監査可能な推論、安全と倫理の整合性、敵の誤用に対するレジリエンスが必要であるため、定期的な臨床使用は限られている。
ここでは,臨床信頼信号(CTS)パイプラインを用いてトレーニングされたSafeMed-R1について述べる。このパイプラインは,各推論インスタンスをクリニカルルーリックスコアとリンクし,履歴を編集し,安全と倫理の監督とレッドチームストレステストを通じて整列する。
SafeMed-R1のマクロ平均精度は、臨床ベンチマークで79.6%である。
敵の安全試験では、最も低い集約リスクを示し、基準値に対して安全でない出力を約3~5%削減する。
セーフメッドR1とPGY1とPGY2は、30種類の医薬品の安全性に関する2つの専門家による研究で一致し、医薬品の安全性、ガイドラインの整合性、臨床的有用性について高いスコアを得た。
これらの結果から, 専門医が診察した指導成果と, ドメインに合った安全と倫理の整合性は, 推測時間検索や引用接地に頼ることなく, 統治関連証拠の強化につながることが示唆された。
関連論文リスト
- A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations [60.2076951536797]
大規模言語モデル(LLM)は、医療シナリオにますます多くデプロイされている。
LLMが会話中に臨床ガイドラインを特定・遵守できるのかは不明確である。
CPGBenchは、LSMの臨床ガイドラインの検出と付着能力をベンチマークする自動フレームワークである。
論文 参考訳(メタデータ) (2026-03-26T09:00:55Z) - TherapyGym: Evaluating and Aligning Clinical Fidelity and Safety in Therapy Chatbots [24.894881768337125]
THERAPYGYMは、治療用チャットボットを2つの臨床柱に沿って評価し、改善するフレームワークである。
LLMに基づく審査員のバイアスと信頼性の低下を緩和するため、1270名の専門家による116の対話の検証セットであるTheraPyJUDGEBENCHをリリースする。
論文 参考訳(メタデータ) (2026-02-23T06:05:01Z) - Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - Improving the Safety and Trustworthiness of Medical AI via Multi-Agent Evaluation Loops [1.412167203558403]
大規模言語モデル(LLM)は、医療にますます適用されているが、倫理的整合性と安全性の遵守は、臨床展開にとって大きな障壁である。
本研究は、構造的かつ反復的なアライメントによる医療用LCMの安全性と信頼性を高めるために設計されたマルチエージェント・リファインメント・フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-19T18:10:34Z) - MediEval: A Unified Medical Benchmark for Patient-Contextual and Knowledge-Grounded Reasoning in LLMs [7.2159153945746795]
既存の評価は、単独で実際の医療知識をテストするか、患者レベルの推論を正当性を検証せずに評価し、重大なギャップを残している。
我々はMIMIC-IV電子健康記録とUMLSやその他のバイオメディカル語彙から構築された統一知識ベースを結びつけるベンチマークであるMediEvalを紹介する。
MediEvalは、実際の患者コンテキスト内で、さまざまな事実的および反ファクト的医療声明を生成し、4つのクアドラント・フレームワーク間で体系的な評価を可能にする。
論文 参考訳(メタデータ) (2025-12-23T22:52:24Z) - SafeMed-R1: Adversarial Reinforcement Learning for Generalizable and Robust Medical Reasoning in Vision-Language Models [0.0]
ハイブリット・ディフェンス・フレームワークであるSafeMed-R1を導入する。
明示的なチェーン・オブ・シークレット推論で訓練されたモデルは、命令のみの変種と比較して、対角的堅牢性に優れることを示した。
論文 参考訳(メタデータ) (2025-12-22T12:07:33Z) - Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models [46.81512544528928]
MedCheckは、医療ベンチマーク用に設計された最初のライフサイクル指向アセスメントフレームワークである。
我々のフレームワークは、設計からガバナンスまで、ベンチマークの開発を5つの連続的な段階に分解し、46の医学的基準の包括的なチェックリストを提供する。
本分析では,臨床実践からの深い切り離し,無害な汚染リスクによるデータの整合性の危機,モデルロバスト性や不確実性認識といった安全クリティカルな評価の側面を体系的に無視することなど,全身的な問題を明らかにする。
論文 参考訳(メタデータ) (2025-08-06T11:11:40Z) - A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。
臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。
13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文 参考訳(メタデータ) (2025-07-31T12:10:00Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。