論文の概要: Lessons Learned from Evaluation of LLM based Multi-agents in Safer Therapy Recommendation
- arxiv url: http://arxiv.org/abs/2507.10911v1
- Date: Tue, 15 Jul 2025 02:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.951971
- Title: Lessons Learned from Evaluation of LLM based Multi-agents in Safer Therapy Recommendation
- Title(参考訳): 予防的治療勧告におけるLCMに基づくマルチエージェントの評価から学んだ教訓
- Authors: Yicong Wu, Ting Chen, Irit Hochberg, Zhoujian Sun, Ruth Edry, Zhengxing Huang, Mor Peleg,
- Abstract要約: 本研究では,Large Language Model (LLM) を用いたマルチエージェントシステムの有用性と有用性について検討した。
我々は,MDT(Multidisciplinary Team)意思決定をシミュレーションする単一のエージェントとMASフレームワークを設計した。
我々はMAS性能を単エージェントアプローチと実世界のベンチマークと比較した。
- 参考スコア(独自算出の注目度): 9.84660526673816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Therapy recommendation for chronic patients with multimorbidity is challenging due to risks of treatment conflicts. Existing decision support systems face scalability limitations. Inspired by the way in which general practitioners (GP) manage multimorbidity patients, occasionally convening multidisciplinary team (MDT) collaboration, this study investigated the feasibility and value of using a Large Language Model (LLM)-based multi-agent system (MAS) for safer therapy recommendations. We designed a single agent and a MAS framework simulating MDT decision-making by enabling discussion among LLM agents to resolve medical conflicts. The systems were evaluated on therapy planning tasks for multimorbidity patients using benchmark cases. We compared MAS performance with single-agent approaches and real-world benchmarks. An important contribution of our study is the definition of evaluation metrics that go beyond the technical precision and recall and allow the inspection of clinical goals met and medication burden of the proposed advices to a gold standard benchmark. Our results show that with current LLMs, a single agent GP performs as well as MDTs. The best-scoring models provide correct recommendations that address all clinical goals, yet the advices are incomplete. Some models also present unnecessary medications, resulting in unnecessary conflicts between medication and conditions or drug-drug interactions.
- Abstract(参考訳): 多病性慢性疾患に対する治療勧告は, 治療障害のリスクが原因で困難である。
既存の意思決定支援システムはスケーラビリティの制限に直面している。
一般開業医(GP)が多病原性患者を管理する方法に触発され,多学際チーム(MDT)のコラボレーションが実現可能か,より安全な治療勧告にLarge Language Model(LLM)ベースのマルチエージェントシステム(MAS)の有用性と意義について検討した。
我々は,MDT意思決定を模擬した単一エージェントとMASフレームワークを設計し,LSMエージェント間の議論による医療紛争の解決を可能にした。
マルチモービルディティー患者に対する治療計画課題をベンチマークケースを用いて評価した。
我々はMAS性能を単エージェントアプローチと実世界のベンチマークと比較した。
本研究の重要な貢献は、技術的精度とリコールを超えて、臨床目標の検査を可能にする評価基準の定義と、ゴールドスタンダードベンチマークへの提案されたアドバイスの薬物負担である。
以上の結果から,現在のLLMでは,単一のエージェントGPがMDTと同様に動作することがわかった。
ベストスコアモデルは、すべての臨床的目標に対処する正しいレコメンデーションを提供するが、アドバイスは不完全である。
いくつかのモデルは、不要な薬品も提示しており、薬と状態と、薬物と薬物の相互作用の間に不必要に衝突する。
関連論文リスト
- MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - DoctorAgent-RL: A Multi-Agent Collaborative Reinforcement Learning System for Multi-Turn Clinical Dialogue [5.0037050098387805]
大規模言語モデル (LLMs) は, バイオメディカルな質問応答の分野で優れた能力を発揮してきたが, 実際の臨床研究への応用はいまだに課題に直面している。
本稿では,医療相談を不確実性下での動的意思決定プロセスとしてモデル化する,強化学習(RL)に基づくマルチエージェント協調フレームワークであるDoctorAgent-RLを提案する。
実験により、DoctorAgent-RLは、マルチターン推論能力と最終的な診断性能の両方で既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:48:14Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - Addressing Overprescribing Challenges: Fine-Tuning Large Language Models for Medication Recommendation Tasks [46.95099594570405]
医療レコメンデーションシステムは、患者の臨床データに基づいて、パーソナライズされた効果的な薬物の組み合わせを提供する可能性について、医療機関内で注目を集めている。
既存の手法は、多様な電子健康記録(EHR)システムに適応する際の課題に直面する。
本稿では,Language-Assisted Medication Recommendation (LAMO)を提案する。
論文 参考訳(メタデータ) (2025-03-05T17:28:16Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - Exploring LLM-based Data Annotation Strategies for Medical Dialogue Preference Alignment [22.983780823136925]
本研究は、医療対話モデルを改善するために、AIフィードバック(RLAIF)技術を用いた強化学習(Reinforcement Learning)について検討する。
医療におけるRLAIF研究の主な課題は、自動評価手法の限界である。
標準化された患者診査に基づく新しい評価枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-05T10:29:19Z) - Empowering Clinicians with Medical Decision Transformers: A Framework for Sepsis Treatment [5.0005174003014865]
安全クリティカルな環境下での課題を解決するための医療意思決定変換器(MeDT)を提案する。
MeDTは、決定トランスフォーマーアーキテクチャを使用して、薬物投与推奨のポリシーを学ぶ。
MeDTは、患者の医療履歴、治療決定、結果、安定性に対する短期的影響の複雑な依存関係をキャプチャする。
論文 参考訳(メタデータ) (2024-07-28T03:40:00Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Adaptive Multi-Agent Deep Reinforcement Learning for Timely Healthcare Interventions [17.405080523382235]
マルチエージェント深部強化学習(DRL)を用いた新しいAI駆動型患者監視フレームワークを提案する。
アプローチでは複数の学習エージェントをデプロイし,心拍数,呼吸量,温度などの生理的特徴をモニタする。
提案する多エージェントDRLフレームワークの性能を,2つのデータセットから実世界の生理・運動データを用いて評価した。
論文 参考訳(メタデータ) (2023-09-20T00:42:08Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。