Fugu-MT 論文翻訳(概要): Exploring Large Language Models for Specialist-level Oncology Care

論文の概要: Exploring Large Language Models for Specialist-level Oncology Care

arxiv url: http://arxiv.org/abs/2411.03395v1
Date: Tue, 05 Nov 2024 18:30:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.757667
Title: Exploring Large Language Models for Specialist-level Oncology Care
Title（参考訳）: 専門医レベルのオンコロジーケアのための大規模言語モデルの検討
Authors: Anil Palepu, Vikram Dhillon, Polly Niravath, Wei-Hung Weng, Preethi Prasad, Khaled Saab, Ryutaro Tanno, Yong Cheng, Hanh Mai, Ethan Burns, Zainub Ajmal, Kavita Kulkarni, Philip Mansfield, Dale Webster, Joelle Barral, Juraj Gottweis, Mike Schaekermann, S. Sara Mahdavi, Vivek Natarajan, Alan Karthikesalingam, Tao Tu,
Abstract要約: 乳腺腫瘍治療のサブスペシャリスト領域における対話型診断AIシステムAMIEの性能について検討した。当科では, 治療・治療・難治性症例の50種類の合成乳がんビグネットを切除した。症例要約の質, ケア計画の安全性, 化学療法, 放射線療法, 手術, ホルモン療法の勧告など, 管理計画を評価するための詳細な臨床用ルーリックを開発した。
参考スコア（独自算出の注目度）: 17.34069859182619
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) have shown remarkable progress in encoding clinical knowledge and responding to complex medical queries with appropriate clinical reasoning. However, their applicability in subspecialist or complex medical settings remains underexplored. In this work, we probe the performance of AMIE, a research conversational diagnostic AI system, in the subspecialist domain of breast oncology care without specific fine-tuning to this challenging domain. To perform this evaluation, we curated a set of 50 synthetic breast cancer vignettes representing a range of treatment-naive and treatment-refractory cases and mirroring the key information available to a multidisciplinary tumor board for decision-making (openly released with this work). We developed a detailed clinical rubric for evaluating management plans, including axes such as the quality of case summarization, safety of the proposed care plan, and recommendations for chemotherapy, radiotherapy, surgery and hormonal therapy. To improve performance, we enhanced AMIE with the inference-time ability to perform web search retrieval to gather relevant and up-to-date clinical knowledge and refine its responses with a multi-stage self-critique pipeline. We compare response quality of AMIE with internal medicine trainees, oncology fellows, and general oncology attendings under both automated and specialist clinician evaluations. In our evaluations, AMIE outperformed trainees and fellows demonstrating the potential of the system in this challenging and important domain. We further demonstrate through qualitative examples, how systems such as AMIE might facilitate conversational interactions to assist clinicians in their decision making. However, AMIE's performance was overall inferior to attending oncologists suggesting that further research is needed prior to consideration of prospective uses.
Abstract（参考訳）: 大言語モデル(LLM)は、臨床知識を符号化し、適切な臨床推論を伴う複雑な医学的問い合わせに応答する顕著な進歩を示した。しかし、サブスペシャリストや複雑な医療環境における適用性は未解明のままである。本研究では,乳腺腫瘍治療のサブスペシャリスト領域における対話型診断AIシステムであるAMIEの性能を,この課題に対して特異的に微調整することなく調査する。この評価のために, 治療用および治療用難治性症例に代表される50種類の合成乳がんビグネットを作製し, 意思決定のために多分野の腫瘍ボードで利用可能な鍵情報を反映した。症例要約の質, ケア計画の安全性, 化学療法, 放射線療法, 手術, ホルモン療法の勧告など, 管理計画を評価するための詳細な臨床用ルーリックを開発した。性能向上のために,Web検索をリアルタイムに実行し,関連性および最新の臨床知識を収集し,多段階の自己批判パイプラインを用いて応答を洗練する機能を備えたAMIEを改良した。本研究は, 内科研修生, 腫瘍学フェロー, 一般腫瘍学参加者に対するAMIEの反応品質を, 自動的, 専門的な臨床評価の両面から比較した。我々の評価では、AMIEは、この挑戦的で重要な領域におけるシステムの可能性を示す訓練生や仲間よりも優れています。さらに, 定性的な例を通して, AMIEなどのシステムが, 臨床医の意思決定を支援するために, 対話的相互作用を促進する方法を紹介した。しかし, 内科医の成績は, 将来的な利用を考慮し, さらなる研究が必要であることを示唆するほど, 総合的に劣った。

関連論文リスト

MedConsultBench: A Full-Cycle, Fine-Grained, Process-Aware Benchmark for Medical Consultation Agents [10.109613967215447]
MedConsultBenchは,オンラインコンサルテーションサイクルの完全な評価を目的とした総合的なフレームワークである。本手法では,臨床情報取得をサブターンレベルで追跡するために,AIU(Atomic Information Units)を導入している。オンラインコンサルティングに固有の不明瞭さと曖昧さに対処することで、このベンチマークは不確実性を認識しながら簡潔な調査を評価する。
論文参考訳（メタデータ） (2026-01-19T02:18:10Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
Performance of Large Language Models in Supporting Medical Diagnosis and Treatment [0.0]
AI駆動システムは、膨大なデータセットを分析し、臨床医が病気を特定し、治療を推奨し、患者の結果を予測するのを支援する。本研究は,2024年のポルトガル国立試験場において,オープンソースモデルとクローズドソースモデルの両方を含む,現代LLMの性能評価を行った。
論文参考訳（メタデータ） (2025-04-14T16:53:59Z)
TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。 TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文参考訳（メタデータ） (2025-03-26T15:58:16Z)
Towards Conversational AI for Disease Management [29.189384095061722]
Articulate Medical Intelligence Explorer (AMIE) は、臨床管理と対話のために最適化されたエージェントシステムである。 AMIEは、専門医が評価する管理的推論において、PCPに非優位である。 AMIEの評価における強いパフォーマンスは、疾患管理のツールとしての対話型AIへの重要な一歩である。
論文参考訳（メタデータ） (2025-03-08T05:48:58Z)
Expertise Is What We Want [0.0]
アプリケーションアーキテクチャ、LLE(Large Language Expert)は、LLM(Large Language Models)の柔軟性とパワーと、Expert Systemsの解釈可能性、説明可能性、信頼性を組み合わせたものです。 LLE(Large Language Expert)システムのパワーを強調するために,新たに癌と診断された患者の作業を支援するLLEを構築した。
論文参考訳（メタデータ） (2025-02-27T18:05:15Z)
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文参考訳（メタデータ） (2024-12-02T15:25:02Z)
Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文参考訳（メタデータ） (2024-11-16T18:19:53Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文参考訳（メタデータ） (2024-10-24T15:41:56Z)
Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy [6.952909762512736]
そこで本研究では,大規模言語モデル (LLM) を指導するためのプロンプトエンジニアリングの効果について検討する。本稿では,プロンプトエンジニアリング手法を適切に利用することにより,プロトタイズされた治療を提供するモデルの能力を向上できることを実証する。
論文参考訳（メタデータ） (2024-08-27T17:25:16Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。 VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-29T23:19:28Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation for Automatic Diagnosis [30.943705201552643]
本研究では,潜在的な疾患に対するエージェントの確率分布を適応的に融合させることにより,現実世界の診断過程をモデル化する枠組みを提案する。提案手法では,パラメータ更新とトレーニング時間を大幅に短縮し,効率と実用性を向上する。
論文参考訳（メタデータ） (2024-01-29T12:25:30Z)
MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2024-01-21T03:37:47Z)
Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文参考訳（メタデータ） (2024-01-11T04:25:06Z)
Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文参考訳（メタデータ） (2023-10-17T13:39:26Z)
Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文参考訳（メタデータ） (2023-07-30T16:08:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。