論文の概要: Exploring Large Language Models for Specialist-level Oncology Care
- arxiv url: http://arxiv.org/abs/2411.03395v1
- Date: Tue, 05 Nov 2024 18:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:23:04.582261
- Title: Exploring Large Language Models for Specialist-level Oncology Care
- Title(参考訳): 専門医レベルのオンコロジーケアのための大規模言語モデルの検討
- Authors: Anil Palepu, Vikram Dhillon, Polly Niravath, Wei-Hung Weng, Preethi Prasad, Khaled Saab, Ryutaro Tanno, Yong Cheng, Hanh Mai, Ethan Burns, Zainub Ajmal, Kavita Kulkarni, Philip Mansfield, Dale Webster, Joelle Barral, Juraj Gottweis, Mike Schaekermann, S. Sara Mahdavi, Vivek Natarajan, Alan Karthikesalingam, Tao Tu,
- Abstract要約: 乳腺腫瘍治療のサブスペシャリスト領域における対話型診断AIシステムAMIEの性能について検討した。
当科では, 治療・治療・難治性症例の50種類の合成乳がんビグネットを切除した。
症例要約の質, ケア計画の安全性, 化学療法, 放射線療法, 手術, ホルモン療法の勧告など, 管理計画を評価するための詳細な臨床用ルーリックを開発した。
- 参考スコア(独自算出の注目度): 17.34069859182619
- License:
- Abstract: Large language models (LLMs) have shown remarkable progress in encoding clinical knowledge and responding to complex medical queries with appropriate clinical reasoning. However, their applicability in subspecialist or complex medical settings remains underexplored. In this work, we probe the performance of AMIE, a research conversational diagnostic AI system, in the subspecialist domain of breast oncology care without specific fine-tuning to this challenging domain. To perform this evaluation, we curated a set of 50 synthetic breast cancer vignettes representing a range of treatment-naive and treatment-refractory cases and mirroring the key information available to a multidisciplinary tumor board for decision-making (openly released with this work). We developed a detailed clinical rubric for evaluating management plans, including axes such as the quality of case summarization, safety of the proposed care plan, and recommendations for chemotherapy, radiotherapy, surgery and hormonal therapy. To improve performance, we enhanced AMIE with the inference-time ability to perform web search retrieval to gather relevant and up-to-date clinical knowledge and refine its responses with a multi-stage self-critique pipeline. We compare response quality of AMIE with internal medicine trainees, oncology fellows, and general oncology attendings under both automated and specialist clinician evaluations. In our evaluations, AMIE outperformed trainees and fellows demonstrating the potential of the system in this challenging and important domain. We further demonstrate through qualitative examples, how systems such as AMIE might facilitate conversational interactions to assist clinicians in their decision making. However, AMIE's performance was overall inferior to attending oncologists suggesting that further research is needed prior to consideration of prospective uses.
- Abstract(参考訳): 大言語モデル(LLM)は、臨床知識を符号化し、適切な臨床推論を伴う複雑な医学的問い合わせに応答する顕著な進歩を示した。
しかし、サブスペシャリストや複雑な医療環境における適用性は未解明のままである。
本研究では,乳腺腫瘍治療のサブスペシャリスト領域における対話型診断AIシステムであるAMIEの性能を,この課題に対して特異的に微調整することなく調査する。
この評価のために, 治療用および治療用難治性症例に代表される50種類の合成乳がんビグネットを作製し, 意思決定のために多分野の腫瘍ボードで利用可能な鍵情報を反映した。
症例要約の質, ケア計画の安全性, 化学療法, 放射線療法, 手術, ホルモン療法の勧告など, 管理計画を評価するための詳細な臨床用ルーリックを開発した。
性能向上のために,Web検索をリアルタイムに実行し,関連性および最新の臨床知識を収集し,多段階の自己批判パイプラインを用いて応答を洗練する機能を備えたAMIEを改良した。
本研究は, 内科研修生, 腫瘍学フェロー, 一般腫瘍学参加者に対するAMIEの反応品質を, 自動的, 専門的な臨床評価の両面から比較した。
我々の評価では、AMIEは、この挑戦的で重要な領域におけるシステムの可能性を示す訓練生や仲間よりも優れています。
さらに, 定性的な例を通して, AMIEなどのシステムが, 臨床医の意思決定を支援するために, 対話的相互作用を促進する方法を紹介した。
しかし, 内科医の成績は, 将来的な利用を考慮し, さらなる研究が必要であることを示唆するほど, 総合的に劣った。
関連論文リスト
- Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy [6.952909762512736]
そこで本研究では,大規模言語モデル (LLM) を指導するためのプロンプトエンジニアリングの効果について検討する。
本稿では,プロンプトエンジニアリング手法を適切に利用することにより,プロトタイズされた治療を提供するモデルの能力を向上できることを実証する。
論文 参考訳(メタデータ) (2024-08-27T17:25:16Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation
for Automatic Diagnosis [30.943705201552643]
本研究では,潜在的な疾患に対するエージェントの確率分布を適応的に融合させることにより,現実世界の診断過程をモデル化する枠組みを提案する。
提案手法では,パラメータ更新とトレーニング時間を大幅に短縮し,効率と実用性を向上する。
論文 参考訳(メタデータ) (2024-01-29T12:25:30Z) - MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。
本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。
この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-21T03:37:47Z) - Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。
AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。
AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (2024-01-11T04:25:06Z) - Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである
人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。
本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文 参考訳(メタデータ) (2023-10-17T13:39:26Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。