論文の概要: Enabling Doctor-Centric Medical AI with LLMs through Workflow-Aligned Tasks and Benchmarks
- arxiv url: http://arxiv.org/abs/2510.11040v1
- Date: Mon, 13 Oct 2025 06:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.219136
- Title: Enabling Doctor-Centric Medical AI with LLMs through Workflow-Aligned Tasks and Benchmarks
- Title(参考訳): ワークフロー指向タスクとベンチマークによるLLMを用いた医師中心医療AIの実現
- Authors: Wenya Xie, Qingying Xiao, Yu Zheng, Xidong Wang, Junying Chen, Ke Ji, Anningzhe Gao, Prayag Tiwari, Xiang Wan, Feng Jiang, Benyou Wang,
- Abstract要約: 大きな言語モデル(LLM)の台頭は、臨床ガイダンスを提供することで医療に変化をもたらしたが、患者への直接の展開は安全性のリスクをもたらす。
我々は,患者と直接対話するのではなく,経験豊富な医師と協力する臨床助手としてLLMを再配置することを提案する。
我々は、22の臨床的タスクと27の専門分野にわたる92,000のQ&Aインスタンスからなる大規模な中国の医療データセットであるDoctorFLANを構築した。
- 参考スコア(独自算出の注目度): 72.89088985703748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of large language models (LLMs) has transformed healthcare by offering clinical guidance, yet their direct deployment to patients poses safety risks due to limited domain expertise. To mitigate this, we propose repositioning LLMs as clinical assistants that collaborate with experienced physicians rather than interacting with patients directly. We conduct a two-stage inspiration-feedback survey to identify real-world needs in clinical workflows. Guided by this, we construct DoctorFLAN, a large-scale Chinese medical dataset comprising 92,000 Q&A instances across 22 clinical tasks and 27 specialties. To evaluate model performance in doctor-facing applications, we introduce DoctorFLAN-test (550 single-turn Q&A items) and DotaBench (74 multi-turn conversations). Experimental results with over ten popular LLMs demonstrate that DoctorFLAN notably improves the performance of open-source LLMs in medical contexts, facilitating their alignment with physician workflows and complementing existing patient-oriented models. This work contributes a valuable resource and framework for advancing doctor-centered medical LLM development
- Abstract(参考訳): 大きな言語モデル(LLM)の台頭は、臨床ガイダンスを提供することで医療に変化をもたらしたが、患者への直接のデプロイは、ドメインの専門知識が限られているため、安全性のリスクをもたらす。
そこで我々は,患者と直接対話するのではなく,経験豊富な医師と協力する臨床助手としてLLMを再配置することを提案する。
臨床ワークフローにおける現実的なニーズを特定するために,2段階のインスピレーションフィードバック調査を実施している。
そこで我々は,22の臨床的タスクと27の専門分野にわたる,92,000のQ&Aインスタンスからなる大規模中国の医療データセットであるDoctorFLANを構築した。
医師向けアプリケーションにおけるモデル性能を評価するために、DoctorFLAN-test(550個のシングルターンQ&A項目)とDotaBench(74個のマルチターン会話)を導入する。
10以上の人気のあるLLMによる実験結果から、DoctorFLANは、医学的文脈におけるオープンソースのLLMのパフォーマンスを顕著に改善し、医師のワークフローとの整合を容易にし、既存の患者指向モデルを補完することを示した。
この研究は、医師中心のLLM開発を促進するための貴重な資源と枠組みに貢献する
関連論文リスト
- A Survey of LLM-based Agents in Medicine: How far are we from Baymax? [44.448366897456886]
大規模言語モデル(LLM)は、LLMベースのエージェントの開発を通じて医療を変革している。
この調査は、医学におけるLSMベースのエージェントの総合的なレビューを提供する。
医療エージェントシステムの主要な構成要素として, システムプロファイル, 臨床計画機構, 医療推論フレームワーク, 外的能力向上などについて分析する。
論文 参考訳(メタデータ) (2025-02-16T17:21:05Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - LLMs for Doctors: Leveraging Medical LLMs to Assist Doctors, Not Replace Them [41.65016162783525]
我々は、より経験豊富な医師と協力する医療アシスタントになるよう、Large Language Modelsをチューニングすることに重点を置いている。
我々は、医師のワークフロー全体をサポートするために、DoctorFLANと呼ばれる中国の医療データセットを構築した。
550個のシングルターンQ&Aを含むDoctorFLAN-textittestと74個のマルチターン会話を含むDotaBenchを構築し,医師指向のシナリオにおけるLCMの評価を行った。
論文 参考訳(メタデータ) (2024-06-26T03:08:24Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。