論文の概要: A Multi-Agent Approach to Neurological Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2508.14063v1
- Date: Sun, 10 Aug 2025 14:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.537817
- Title: A Multi-Agent Approach to Neurological Clinical Reasoning
- Title(参考訳): 神経学的臨床推論へのマルチエージェントアプローチ
- Authors: Moran Sorka, Alon Gorenshtein, Dvir Aran, Shahar Shelly,
- Abstract要約: 大規模言語モデル(LLM)は医学領域において有望であるが、専門的な神経学的推論を扱う能力は体系的な評価を必要とする。
我々は,イスラエルの神経学の認定試験から305の質問を用いたベンチマークを開発した。
ベースモデル,検索拡張生成(RAG),新しいマルチエージェントシステムを用いて10個のLLMを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have shown promise in medical domains, but their ability to handle specialized neurological reasoning requires systematic evaluation. We developed a comprehensive benchmark using 305 questions from Israeli Board Certification Exams in Neurology, classified along three complexity dimensions: factual knowledge depth, clinical concept integration, and reasoning complexity. We evaluated ten LLMs using base models, retrieval-augmented generation (RAG), and a novel multi-agent system. Results showed significant performance variation. OpenAI-o1 achieved the highest base performance (90.9% accuracy), while specialized medical models performed poorly (52.9% for Meditron-70B). RAG provided modest benefits but limited effectiveness on complex reasoning questions. In contrast, our multi-agent framework, decomposing neurological reasoning into specialized cognitive functions including question analysis, knowledge retrieval, answer synthesis, and validation, achieved dramatic improvements, especially for mid-range models. The LLaMA 3.3-70B-based agentic system reached 89.2% accuracy versus 69.5% for its base model, with substantial gains on level 3 complexity questions. The multi-agent approach transformed inconsistent subspecialty performance into uniform excellence, addressing neurological reasoning challenges that persisted with RAG enhancement. We validated our approach using an independent dataset of 155 neurological cases from MedQA. Results confirm that structured multi-agent approaches designed to emulate specialized cognitive processes significantly enhance complex medical reasoning, offering promising directions for AI assistance in challenging clinical contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)は医学領域において有望であるが、専門的な神経学的推論を扱う能力は体系的な評価を必要とする。
イスラエルの神経学の認定試験(Certification Exams)から305の質問を総合的に評価し,実知識深度,臨床概念統合,推論複雑性の3次元に分類した。
ベースモデル,検索拡張生成(RAG),新しいマルチエージェントシステムを用いて10個のLLMを評価した。
成績は有意な変動を示した。
OpenAI-o1は最高ベース性能(90.9%の精度)を達成し、特殊な医療モデルは低性能(52.9%はメディトロン-70B)を達成した。
RAGは質素な利点を提供するが、複雑な推論問題に対する有効性は限られていた。
これとは対照的に、神経学的推論を質問分析、知識検索、回答合成、バリデーションを含む特別な認知機能に分解する多エージェントフレームワークは、特に中距離モデルにおいて劇的な改善を実現した。
LLaMA 3.3-70Bベースのエージェントシステムは、ベースモデルでは89.2%の精度で69.5%に達した。
マルチエージェントアプローチは、RAG増強に伴う神経学的推論課題に対処するため、一貫性のないサブスペシャリティパフォーマンスを均一な卓越性に変えた。
MedQAから得られた155症例の独立したデータセットを用いて,本手法の有効性を検証した。
以上の結果から,専門的な認知過程をエミュレートするために設計された構造化マルチエージェントアプローチが,複雑な医学的推論を著しく促進し,臨床現場でのAI支援に有望な方向性を提供することを確認した。
関連論文リスト
- Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Clinical Semantic Intelligence (CSI): Emulating the Cognitive Framework of the Expert Clinician for Comprehensive Oral Disease Diagnosis [0.0]
我々は118の異なる口腔疾患を診断する新しい人工知能フレームワークを開発する。
私たちのコア仮説は、専門家の推論をエミュレートする単純なパターンマッチングを超えて、臨床的に有用な診断支援を構築するために重要である、というものです。
論文 参考訳(メタデータ) (2025-07-20T22:30:01Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [58.78045864541539]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training [0.0]
医学推論における最先端性能を実現する32ビリオンパラメータ言語モデルであるGazal-R1を提案する。
我々のモデルは、中規模のモデルが専門分野においてはるかに大きなモデルよりも優れた性能を発揮することを実証している。
Gazal-R1は、MedQAで87.1%、MMLU Proで81.6%、PubMedQAで79.6%、医療ベンチマークで例外的なパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-06-18T09:44:21Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。