論文の概要: Automated Clinical Problem Detection from SOAP Notes using a Collaborative Multi-Agent LLM Architecture
- arxiv url: http://arxiv.org/abs/2508.21803v1
- Date: Fri, 29 Aug 2025 17:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.135359
- Title: Automated Clinical Problem Detection from SOAP Notes using a Collaborative Multi-Agent LLM Architecture
- Title(参考訳): 協調型多エージェントLLMアーキテクチャを用いたSOAPノートからの自動臨床問題検出
- Authors: Yeawon Lee, Xiaoyang Wang, Christopher C. Yang,
- Abstract要約: 我々は,このギャップに対処するために,臨床相談チームをモデル化する共同マルチエージェントシステム(MAS)を導入する。
このシステムは、SOAPノートの主観的(S)および目的的(O)セクションのみを分析することによって、臨床上の問題を特定する。
マネージャエージェントは、階層的で反復的な議論に従事し、合意に達するために、動的に割り当てられた専門家エージェントのチームを編成する。
- 参考スコア(独自算出の注目度): 8.072932739333309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate interpretation of clinical narratives is critical for patient care, but the complexity of these notes makes automation challenging. While Large Language Models (LLMs) show promise, single-model approaches can lack the robustness required for high-stakes clinical tasks. We introduce a collaborative multi-agent system (MAS) that models a clinical consultation team to address this gap. The system is tasked with identifying clinical problems by analyzing only the Subjective (S) and Objective (O) sections of SOAP notes, simulating the diagnostic reasoning process of synthesizing raw data into an assessment. A Manager agent orchestrates a dynamically assigned team of specialist agents who engage in a hierarchical, iterative debate to reach a consensus. We evaluated our MAS against a single-agent baseline on a curated dataset of 420 MIMIC-III notes. The dynamic multi-agent configuration demonstrated consistently improved performance in identifying congestive heart failure, acute kidney injury, and sepsis. Qualitative analysis of the agent debates reveals that this structure effectively surfaces and weighs conflicting evidence, though it can occasionally be susceptible to groupthink. By modeling a clinical team's reasoning process, our system offers a promising path toward more accurate, robust, and interpretable clinical decision support tools.
- Abstract(参考訳): 臨床物語の正確な解釈は、患者のケアにとって重要であるが、これらのメモの複雑さは、自動化を困難にしている。
LLM(Large Language Models)は、将来性を示すが、単一モデルアプローチは、ハイテイクな臨床タスクに必要なロバスト性を欠く可能性がある。
我々は,このギャップに対処するために,臨床相談チームをモデル化する共同マルチエージェントシステム(MAS)を導入する。
本システムは,SOAPノートの主観的(S)および目的的(O)セクションのみを分析し,生データを評価に合成する診断的推論過程をシミュレートすることにより,臨床上の問題を特定する。
マネージャエージェントは、階層的で反復的な議論に従事し、合意に達するために、動的に割り当てられた専門家エージェントのチームを編成する。
420MIMIC-IIIノートを収集したデータセットを用いて,MASを単エージェントベースラインと比較した。
動的マルチエージェント構成は, 心不全, 急性腎障害, 敗血症の診断において, 常に改善した。
エージェントの質的な分析は、この構造が効果的に表面化し、矛盾する証拠を重み付けしていることを示しているが、時にグループ思考の影響を受けることがある。
臨床チームの推論プロセスをモデル化することにより、より正確で堅牢で、解釈可能な臨床意思決定支援ツールへの道のりが期待できる。
関連論文リスト
- A Multi-Agent Framework for Interpreting Multivariate Physiological Time Series [9.72130666902599]
本稿では,多変量生理的時系列を記述した役割構造型マルチエージェントシステムであるVivaldiを紹介する。
実験の結果,エージェントパイプラインは,非思考的,医学的に微調整されたモデルに極めて有用であることがわかった。
一方、痛みスコアや滞在時間といった主観的対象は、限定的あるいは矛盾的な変化を示す。
論文 参考訳(メタデータ) (2026-03-04T14:55:46Z) - MedCollab: Causal-Driven Multi-Agent Collaboration for Full-Cycle Clinical Diagnosis via IBIS-Structured Argumentation [6.334763475104128]
本稿では,現代病院の階層的相談ワークフローを模倣する,新しいマルチエージェントフレームワークであるMedCollabを紹介する。
このフレームワークは、患者固有の症状や検査結果に応じて、臨床および検査薬を適応的に組み立てる、ダイナミックなスペシャリスト採用機構を備えている。
論文 参考訳(メタデータ) (2026-03-01T14:25:58Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。
本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文 参考訳(メタデータ) (2026-01-06T13:56:33Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - CP-Env: Evaluating Large Language Models on Clinical Pathways in a Controllable Hospital Environment [29.48544328813161]
本研究は,大規模言語モデル(LLM)をエンド・ツー・エンドの医療経路にわたって評価するために設計された,コントロール可能なエージェント型病院環境であるCP-Envを紹介する。
実際の病院適応的な医療の流れに続き、分枝型長期タスク実行を可能にします。
その結果、ほとんどのモデルは経路幻覚に悩まされ、複雑さを示し、重要な診断の詳細を失うことが判明した。
論文 参考訳(メタデータ) (2025-12-11T01:54:55Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Auto-TA: Towards Scalable Automated Thematic Analysis (TA) via Multi-Agent Large Language Models with Reinforcement Learning [3.3212706551453155]
先天性心疾患(CHD: Congenital heart disease)は、従来の臨床指標では示されていない、複雑で寿命の長い課題である。
本稿では,臨床物語のエンド・ツー・エンドのセマンティック分析を行う,完全自動大規模言語モデル(LLM)パイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-30T16:02:28Z) - Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.94208848596215]
提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。
組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T17:59:50Z) - A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。