論文の概要: Human-AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent
- arxiv url: http://arxiv.org/abs/2603.10492v1
- Date: Wed, 11 Mar 2026 07:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.830511
- Title: Human-AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent
- Title(参考訳): Evidence-Integrated Language Agent を用いた臨床診断のためのHuman-AI共同推論
- Authors: Zhongzhen Huang, Yan Ling, Hong Chen, Ye Feng, Li Wu, Linjie Mu, Shaoting Zhang, Xiaofan Zhang, Kun Qian, Xiaomu Li,
- Abstract要約: PULSE (Pulse) は、言語モデルと科学文献検索を組み合わせた医学推論剤である。
実験では,PULSEの成績を,様々な専門知識を持つ医師と比較した。
- 参考スコア(独自算出の注目度): 23.12438916515353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PULSE, a medical reasoning agent that combines a domain-tuned large language model with scientific literature retrieval to support diagnostic decision-making in complex real-world cases. To evaluate its capabilities, we curated a benchmark of 82 authentic endocrinology case reports encompassing a broad spectrum of disease types and incidence levels. In controlled experiments, we compared PULSE's performance against physicians with varying levels of expertise-from residents to senior specialists-and examined how AI assistance influenced human diagnostic reasoning. PULSE attained expert-competitive accuracy, outperforming residents and junior specialists while matching senior specialist performance at both Top@1 and Top@4 thresholds. Unlike physicians, whose accuracy declined with disease rarity, PULSE maintained stable performance across incidence tiers. The agent also exhibited adaptive reasoning, increasing output length with case difficulty in a manner analogous to the longer deliberation observed among expert clinicians. When used collaboratively, PULSE enabled physicians to correct initial errors and broaden diagnostic hypotheses, but also introduced risks of automation bias. The study explores both serial and concurrent collaboration workflows, revealing that PULSE offers robust support across common and rare presentations. These findings underscore both the promise and the limitations of language model-based agents in clinical diagnosis, and offer a framework for evaluating their role in real-world decision-making.
- Abstract(参考訳): PULSEは,複雑な実世界の症例における診断決定を支援するために,ドメイン指定の大規模言語モデルと科学的文献検索を組み合わせた医療推論エージェントである。
本研究は,病型と発症率の幅広い範囲をカバーする82症例の内分泌学検査を施行した。
コントロール実験では, PULSEの性能を住民からシニアスペシャリストまで様々なレベルの専門知識を持つ医師と比較し, AI支援が人間の診断的推論にどのように影響するかを検討した。
PULSEは、Top@1とTop@4のしきい値の両方でシニアスペシャリストのパフォーマンスをマッチングしながら、専門家と競争の正確さを達成し、住民とジュニアスペシャリストを上回った。
重症度が低下した医師とは違って, PULSEは発病率で安定した成績を維持した。
また, 適応的推論を行い, 症例の難易度に応じて出力長を増大させ, 専門医の間で観察される長い熟考に類似した傾向を示した。
共同で使用すると、PULSEは医師が初期エラーを修正し、診断仮説を広げるだけでなく、自動化バイアスのリスクも導入した。
この研究では、シリアルなコラボレーションワークフローとコンカレントなコラボレーションワークフローの両方を調査し、PULSEが一般的なプレゼンテーションと稀なプレゼンテーションに対して堅牢なサポートを提供することを明らかにした。
これらの知見は, 臨床診断における言語モデルに基づくエージェントの約束と限界の両方を強調し, 実世界の意思決定におけるそれらの役割を評価するための枠組みを提供する。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - How to Evaluate Medical AI [4.23552814358972]
アルゴリズム診断(RPAD, RRAD)の相対精度とリコールについて紹介する。
RPADとRADは、AIの出力を単一の参照ではなく複数の専門家の意見と比較する。
大規模な研究によると、DeepSeek-V3のようなトップパフォーマンスモデルは、専門家のコンセンサスに匹敵する一貫性を達成している。
論文 参考訳(メタデータ) (2025-09-15T14:01:22Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - Reverse Physician-AI Relationship: Full-process Clinical Diagnosis Driven by a Large Language Model [71.40113970879219]
医師とAIの関係を逆転させるパラダイムシフトを提案する。
DxDirector-7Bは先進的な深層思考能力を持つLLMであり,医師の関与を最小限に抑えたフルプロセス診断を可能にする。
DxDirector-7Bは診断精度が優れているだけでなく、医師の作業量を大幅に削減する。
論文 参考訳(メタデータ) (2025-08-14T09:51:20Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation
for Automatic Diagnosis [30.943705201552643]
本研究では,潜在的な疾患に対するエージェントの確率分布を適応的に融合させることにより,現実世界の診断過程をモデル化する枠組みを提案する。
提案手法では,パラメータ更新とトレーニング時間を大幅に短縮し,効率と実用性を向上する。
論文 参考訳(メタデータ) (2024-01-29T12:25:30Z) - Enabling Collaborative Clinical Diagnosis of Infectious Keratitis by
Integrating Expert Knowledge and Interpretable Data-driven Intelligence [28.144658552047975]
感染性角膜炎(IK)の診断における知識誘導診断モデル(KGDM)の性能,解釈可能性,臨床的有用性について検討した。
AIベースのバイオマーカーの診断確率比(DOR)は3.011から35.233の範囲で有効である。
コラボレーションの参加者は、人間とAIの両方を上回るパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-14T02:10:54Z) - Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。
AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。
AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (2024-01-11T04:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。