論文の概要: A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing
- arxiv url: http://arxiv.org/abs/2602.14158v1
- Date: Sun, 15 Feb 2026 14:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.675196
- Title: A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing
- Title(参考訳): 医療AIのためのマルチエージェントフレームワーク: 明快でバイアス対応な臨床クエリ処理のための微調整GPT, LLaMA, DeepSeek R1を活用する
- Authors: Naeimeh Nourmohammadi, Md Meem Hossain, The Anh Han, Safina Showkat Ara, Zia Ush Shamszaman,
- Abstract要約: 大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.4349324020366305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) show promise for healthcare question answering, but clinical use is limited by weak verification, insufficient evidence grounding, and unreliable confidence signalling. We propose a multi-agent medical QA framework that combines complementary LLMs with evidence retrieval, uncertainty estimation, and bias checks to improve answer reliability. Our approach has two phases. First, we fine-tune three representative LLM families (GPT, LLaMA, and DeepSeek R1) on MedQuAD-derived medical QA data (20k+ question-answer pairs across multiple NIH domains) and benchmark generation quality. DeepSeek R1 achieves the strongest scores (ROUGE-1 0.536 +- 0.04; ROUGE-2 0.226 +-0.03; BLEU 0.098 -+ 0.018) and substantially outperforms the specialised biomedical baseline BioGPT in zero-shot evaluation. Second, we implement a modular multi-agent pipeline in which a Clinical Reasoning agent (fine-tuned LLaMA) produces structured explanations, an Evidence Retrieval agent queries PubMed to ground responses in recent literature, and a Refinement agent (DeepSeek R1) improves clarity and factual consistency; an optional human validation path is triggered for high-risk or high-uncertainty cases. Safety mechanisms include Monte Carlo dropout and perplexity-based uncertainty scoring, plus lexical and sentiment-based bias detection supported by LIME/SHAP-based analyses. In evaluation, the full system achieves 87% accuracy with relevance around 0.80, and evidence augmentation reduces uncertainty (perplexity 4.13) compared to base responses, with mean end-to-end latency of 36.5 seconds under the reported configuration. Overall, the results indicate that agent specialisation and verification layers can mitigate key single-model limitations and provide a practical, extensible design for evidence-based and bias-aware medical AI.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
私たちのアプローチには2つのフェーズがあります。
まず、MedQuAD由来の医療QAデータ(複数のNIHドメインに20k以上の質問応答ペア)とベンチマーク生成品質に基づいて、3つの代表的なLCMファミリー(GPT、LLaMA、DeepSeek R1)を微調整する。
DeepSeek R1は、最強スコア(ROUGE-1 0.536 +- 0.04; ROUGE-2 0.226 +-0.03; BLEU 0.098 -+ 0.018)を達成し、ゼロショット評価において、特化されたバイオメディカルベースラインのバイオGPTを大幅に上回っている。
第2に、臨床推論エージェント(微調整LLaMA)が構造化された説明を生成するモジュール型マルチエージェントパイプラインを実装し、最近の文献における地上応答にPubMedを付加したエビデンス検索エージェントクエリ、およびRefinementエージェント(DeepSeek R1)により、明快さと事実整合性が向上し、高リスクまたは高不確実性ケースに対してオプションの人体検証パスがトリガーされる。
安全性メカニズムには、モンテカルロのドロップアウトとパープレキシティに基づく不確実性スコア、LIME/SHAPベースの分析でサポートされている語彙および感情に基づくバイアス検出などがある。
評価において、全システムは約0.80の関連性で87%の精度を達成し、エビデンス増強は、報告された構成から平均で36.5秒のレイテンシで、ベースレスポンスと比較して不確実性(複雑度4.13)を減少させる。
全体として、エージェントの特殊化と検証レイヤーは、重要な単一モデル制限を緩和し、エビデンスベースの偏見を意識した医療AIのための実用的で拡張可能な設計を提供する。
関連論文リスト
- Process-Supervised Multi-Agent Reinforcement Learning for Reliable Clinical Reasoning [15.47321745394914]
本稿では,遺伝子導入の有効性評価のためのエージェント・アズ・ツール強化学習フレームワークを提案する。
1つの重要な現実世界のケースは、遺伝子消失の妥当性のキュレーションであり、専門家は、ある遺伝子が病気に因果的に関係しているかどうかを判断しなければならない。
以上の結果から,GRPOを訓練したスーパーバイザーエージェントを用いたMASでは,ベースモデルのスーパーバイザーを0.195から0.732に改善した。
プロセス+結果報酬により、GRPO訓練されたスーパーバイザー付きMASは、より高い結果精度(0.750)を達成し、プロセス忠実度を0.520 F1に改善する。
論文 参考訳(メタデータ) (2026-02-15T14:21:21Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Improving the Safety and Trustworthiness of Medical AI via Multi-Agent Evaluation Loops [1.412167203558403]
大規模言語モデル(LLM)は、医療にますます適用されているが、倫理的整合性と安全性の遵守は、臨床展開にとって大きな障壁である。
本研究は、構造的かつ反復的なアライメントによる医療用LCMの安全性と信頼性を高めるために設計されたマルチエージェント・リファインメント・フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-19T18:10:34Z) - MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation [5.469454486414467]
大言語モデル (LLMs) は脊椎手術における臨床的決定支援の転換的可能性を提供する。
LLMは幻覚を通じて重大なリスクを引き起こすが、これは事実的に矛盾しているか、文脈的に不一致な出力である。
本研究は, 診断精度, 推奨品質, 推理堅牢性, 出力コヒーレンス, 知識アライメントを評価することによって, 幻覚リスクを定量化するための臨床中心の枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-01T15:25:55Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Medical Reasoning in LLMs: An In-Depth Analysis of DeepSeek R1 [0.0]
本研究は、100症例のMedQAを用いて、DeepSeek R1の専門的パターンに対する医学的推論を評価する。
このモデルは、診断精度93%を達成し、鑑別診断、ガイドラインに基づく治療選択、患者固有の因子の統合を通じて、体系的な臨床的判断を実証した。
誤り分析では, バイアスのアンカー, 競合するデータの整合性の課題, 代替案の探索不足, 過剰思考, 知識ギャップ, 中間的治療に対する決定的治療の早期優先順位付けなど, 持続的な限界が認められた。
論文 参考訳(メタデータ) (2025-03-27T09:18:08Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。