論文の概要: Improving the Safety and Trustworthiness of Medical AI via Multi-Agent Evaluation Loops
- arxiv url: http://arxiv.org/abs/2601.13268v1
- Date: Mon, 19 Jan 2026 18:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.002951
- Title: Improving the Safety and Trustworthiness of Medical AI via Multi-Agent Evaluation Loops
- Title(参考訳): マルチエージェント評価ループによる医療AIの安全性と信頼性の向上
- Authors: Zainab Ghafoor, Md Shafiqul Islam, Koushik Howlader, Md Rasel Khondokar, Tanusree Bhattacharjee, Sayantan Chakraborty, Adrito Roy, Ushashi Bhattacharjee, Tirtho Roy,
- Abstract要約: 大規模言語モデル(LLM)は、医療にますます適用されているが、倫理的整合性と安全性の遵守は、臨床展開にとって大きな障壁である。
本研究は、構造的かつ反復的なアライメントによる医療用LCMの安全性と信頼性を高めるために設計されたマルチエージェント・リファインメント・フレームワークを導入する。
- 参考スコア(独自算出の注目度): 1.412167203558403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly applied in healthcare, yet ensuring their ethical integrity and safety compliance remains a major barrier to clinical deployment. This work introduces a multi-agent refinement framework designed to enhance the safety and reliability of medical LLMs through structured, iterative alignment. Our system combines two generative models - DeepSeek R1 and Med-PaLM - with two evaluation agents, LLaMA 3.1 and Phi-4, which assess responses using the American Medical Association's (AMA) Principles of Medical Ethics and a five-tier Safety Risk Assessment (SRA-5) protocol. We evaluate performance across 900 clinically diverse queries spanning nine ethical domains, measuring convergence efficiency, ethical violation reduction, and domain-specific risk behavior. Results demonstrate that DeepSeek R1 achieves faster convergence (mean 2.34 vs. 2.67 iterations), while Med-PaLM shows superior handling of privacy-sensitive scenarios. The iterative multi-agent loop achieved an 89% reduction in ethical violations and a 92% risk downgrade rate, underscoring the effectiveness of our approach. This study presents a scalable, regulator-aligned, and cost-efficient paradigm for governing medical AI safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療にますます適用されているが、倫理的整合性と安全性の遵守は、臨床展開にとって大きな障壁である。
本研究は、構造的かつ反復的なアライメントによる医療用LCMの安全性と信頼性を高めるために設計されたマルチエージェント・リファインメント・フレームワークを導入する。
本システムでは、DeepSeek R1とMed-PaLMの2つの生成モデルと、米国医学会(AMA)の医療倫理原則と5層安全リスクアセスメント(SRA-5)プロトコルを用いて回答を評価するLLaMA 3.1とPhi-4の2つの評価エージェントを組み合わせた。
9つの倫理的領域にまたがる900の臨床的に多様なクエリのパフォーマンスを評価し、収束効率、倫理的違反低減、およびドメイン固有のリスク行動を測定した。
結果は、DeepSeek R1がより高速な収束(平均2.34対2.67回)を達成することを示す一方、Med-PaLMはプライバシーに敏感なシナリオの処理に優れていることを示している。
反復的多エージェントループは, 倫理侵害の89%, リスクダウングレード率92%を達成し, アプローチの有効性を裏付けた。
本研究は,医療用AIの安全性を管理するための,スケーラブルで規制に整合した,費用効率のパラダイムを提案する。
関連論文リスト
- Ethical Risks in Deploying Large Language Models: An Evaluation of Medical Ethics Jailbreaking [0.49259062564301753]
悪質なプロンプトエンジニアリング、特に「ジェイルブレイク攻撃」は、内部の安全メカニズムをバイパスするためにモデルを誘導することで深刻なセキュリティリスクを引き起こす。
現在のベンチマークは主に公共の安全と西洋の文化規範に焦点を当てており、中国の文脈におけるニッチでリスクの高い医療倫理の領域を評価する上で重要なギャップを残している。
我々は,DeepInceptionフレームワーク内の7つの著名なモデル(GPT-5,Claude-Sonnet-4-Reasoning,DeepSeek-R1)を「ロールプレイング+シナリオシミュレーション+マルチターン対話」ベクトルを用いて評価した。
論文 参考訳(メタデータ) (2026-01-19T01:52:34Z) - SafeMed-R1: Adversarial Reinforcement Learning for Generalizable and Robust Medical Reasoning in Vision-Language Models [0.0]
ハイブリット・ディフェンス・フレームワークであるSafeMed-R1を導入する。
明示的なチェーン・オブ・シークレット推論で訓練されたモデルは、命令のみの変種と比較して、対角的堅牢性に優れることを示した。
論文 参考訳(メタデータ) (2025-12-22T12:07:33Z) - Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation [5.469454486414467]
大言語モデル (LLMs) は脊椎手術における臨床的決定支援の転換的可能性を提供する。
LLMは幻覚を通じて重大なリスクを引き起こすが、これは事実的に矛盾しているか、文脈的に不一致な出力である。
本研究は, 診断精度, 推奨品質, 推理堅牢性, 出力コヒーレンス, 知識アライメントを評価することによって, 幻覚リスクを定量化するための臨床中心の枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-01T15:25:55Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Enabling Responsible, Secure and Sustainable Healthcare AI - A Strategic Framework for Clinical and Operational Impact [0.5076419064097734]
私たちは、責任があり、安全で持続可能なヘルスケアAIを運用するための実用モデルを提供しています。
このフレームワークには、リーダーシップと戦略、MLOps & Technical Infrastructure、ガバナンスと倫理、教育と労働力開発、変革管理と採用の5つの重要な柱が含まれている。
2つのデプロイを通じてそのユーティリティを実証します。
論文 参考訳(メタデータ) (2025-10-09T12:40:59Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare [15.438265972219869]
大規模言語モデル(LLM)は、医療アプリケーションでますます活用されている。
本研究は、7個のLDMの脆弱性を3つの高度なブラックボックスジェイルブレイク技術に系統的に評価する。
論文 参考訳(メタデータ) (2025-01-27T22:07:52Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。