論文の概要: MedChat: A Multi-Agent Framework for Multimodal Diagnosis with Large Language Models
- arxiv url: http://arxiv.org/abs/2506.07400v1
- Date: Mon, 09 Jun 2025 03:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.798626
- Title: MedChat: A Multi-Agent Framework for Multimodal Diagnosis with Large Language Models
- Title(参考訳): MedChat: 大規模言語モデルを用いたマルチモーダル診断のためのマルチエージェントフレームワーク
- Authors: Philip Liu, Sparsh Bansal, Jimmy Dinh, Aditya Pawar, Ramani Satishkumar, Shail Desai, Neeraj Gupta, Xin Wang, Shu Hu,
- Abstract要約: 緑内障検出と大言語モデル(LLM)の統合は、眼科医の不足を軽減するための自動戦略である。
一般的なLLMを医用画像に適用することは、幻覚、限定的な解釈可能性、ドメイン固有の医療知識の不足により、依然として困難である。
我々は、特殊視モデルと複数のロール固有のLLMエージェントを組み合わせたマルチエージェント診断フレームワークとプラットフォームであるMedChatを提案する。
- 参考スコア(独自算出の注目度): 9.411749481805355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of deep learning-based glaucoma detection with large language models (LLMs) presents an automated strategy to mitigate ophthalmologist shortages and improve clinical reporting efficiency. However, applying general LLMs to medical imaging remains challenging due to hallucinations, limited interpretability, and insufficient domain-specific medical knowledge, which can potentially reduce clinical accuracy. Although recent approaches combining imaging models with LLM reasoning have improved reporting, they typically rely on a single generalist agent, restricting their capacity to emulate the diverse and complex reasoning found in multidisciplinary medical teams. To address these limitations, we propose MedChat, a multi-agent diagnostic framework and platform that combines specialized vision models with multiple role-specific LLM agents, all coordinated by a director agent. This design enhances reliability, reduces hallucination risk, and enables interactive diagnostic reporting through an interface tailored for clinical review and educational use. Code available at https://github.com/Purdue-M2/MedChat.
- Abstract(参考訳): 深層学習に基づく緑内障検出と大言語モデル(LLM)の統合は、眼科医の不足を軽減し、臨床報告効率を向上させるための自動戦略を提供する。
しかし、幻覚、限定的な解釈可能性、ドメイン固有の医療知識が不足し、臨床精度が低下する可能性があるため、一般のLSMを医用画像に適用することは依然として困難である。
画像モデルとLCM推論を組み合わせる最近のアプローチは報告を改善するが、通常は単一のジェネラリストエージェントに依存し、多分野の医療チームで見られる多種多様な複雑な推論をエミュレートする能力を制限する。
これらの制約に対処するため、私たちはMedChatを提案する。MedChatは、特殊な視覚モデルと複数のロール固有のLLMエージェントを組み合わせたプラットフォームで、すべてディレクターエージェントによって調整される。
この設計は信頼性を高め、幻覚リスクを低減し、臨床レビューや教育利用に適したインターフェースを通じてインタラクティブな診断レポートを可能にする。
コードはhttps://github.com/Purdue-M2/MedChat.comで公開されている。
関連論文リスト
- MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - RetinalGPT: A Retinal Clinical Preference Conversational Assistant Powered by Large Vision-Language Models [17.579521693647383]
臨床的に好ましい網膜画像の定量的解析のための多モード対話アシスタントであるtextitRetinalGPT を紹介する。
特に網膜GPTは、網膜疾患の診断において、ジェネリックドメインのMLLMよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2025-03-06T00:19:54Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Knowledge-Augmented Multimodal Clinical Rationale Generation for Disease Diagnosis with Small Language Models [14.136585695164426]
小型言語モデル(SLM)は効率的であるが、マルチモーダル医療データを統合するための高度な推論が欠けている。
我々は,LLM由来の推論能力を合理的蒸留とドメイン知識注入によって活用し,SLMの強化を図るClinRaGenを提案する。
実世界の医療データセットの実験により、ClinRaGenは疾患の診断と合理性生成において最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-11-12T07:34:56Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant
based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T11:09:48Z) - ChatCAD+: Towards a Universal and Reliable Interactive CAD using LLMs [48.11532667875847]
ChatCAD+は高品質な医療レポートを生成し、信頼できる医療アドバイスを提供するツールである。
信頼性レポート生成モジュールは、医療画像を解釈し、高品質な医療レポートを生成することができる。
Reliable Interactionモジュールは、信頼できる医療アドバイスを提供するために、信頼できる医療ウェブサイトからの最新の情報を活用する。
論文 参考訳(メタデータ) (2023-05-25T12:03:31Z) - ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using
Large Language Models [53.73049253535025]
大規模言語モデル(LLM)は、最近臨床応用においてその可能性を実証している。
本稿では,LLMを医療画像CADネットワークに統合する手法を提案する。
LLMの医用領域知識と論理的推論の強みを、既存の医用画像CADモデルの視覚理解能力と融合させることが目的である。
論文 参考訳(メタデータ) (2023-02-14T18:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。