論文の概要: MedOrchestra: A Hybrid Cloud-Local LLM Approach for Clinical Data Interpretation
- arxiv url: http://arxiv.org/abs/2505.23806v1
- Date: Tue, 27 May 2025 05:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.520162
- Title: MedOrchestra: A Hybrid Cloud-Local LLM Approach for Clinical Data Interpretation
- Title(参考訳): MedOrchestra: 臨床データ解釈のためのハイブリッドクラウドローカルLCMアプローチ
- Authors: Sihyeon Lee, Hyunjoo Song, Jong-chan Lee, Yoon Jin Lee, Boram Lee, Hee-Eon Lim, Dongyeong Kim, Jinwook Seo, Bohyoung Kim,
- Abstract要約: クラウド LLM が複雑な臨床タスクを,管理可能なサブタスクに分解して生成するハイブリッドフレームワーク MedOrchestra を提案する。
NCCNガイドラインに基づく100例の放射線検査で膵癌ステージングにおけるMedOrchestraの評価を行った。
- 参考スコア(独自算出の注目度): 19.325923233040175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models (LLMs) in clinical settings faces critical trade-offs: cloud LLMs, with their extensive parameters and superior performance, pose risks to sensitive clinical data privacy, while local LLMs preserve privacy but often fail at complex clinical interpretation tasks. We propose MedOrchestra, a hybrid framework where a cloud LLM decomposes complex clinical tasks into manageable subtasks and prompt generation, while a local LLM executes these subtasks in a privacy-preserving manner. Without accessing clinical data, the cloud LLM generates and validates subtask prompts using clinical guidelines and synthetic test cases. The local LLM executes subtasks locally and synthesizes outputs generated by the cloud LLM. We evaluate MedOrchestra on pancreatic cancer staging using 100 radiology reports under NCCN guidelines. On free-text reports, MedOrchestra achieves 70.21% accuracy, outperforming local model baselines (without guideline: 48.94%, with guideline: 56.59%) and board-certified clinicians (gastroenterologists: 59.57%, surgeons: 65.96%, radiologists: 55.32%). On structured reports, MedOrchestra reaches 85.42% accuracy, showing clear superiority across all settings.
- Abstract(参考訳): 大規模な言語モデル(LLM)を臨床環境にデプロイすることは、重要なトレードオフに直面している。 クラウドLLMは、その広範なパラメータと優れたパフォーマンスを持ち、機密性の高い臨床データのプライバシにリスクをもたらす一方、ローカルLLMはプライバシを保持するが、複雑な臨床解釈タスクでは失敗することが多い。
我々は,クラウドLLMが複雑な臨床タスクを管理可能なサブタスクに分解して生成するハイブリッドフレームワークであるMedOrchestraを提案し,ローカルLLMはこれらのサブタスクをプライバシ保護方式で実行する。
臨床データにアクセスせずに、クラウドLLMは臨床ガイドラインと合成テストケースを使用してサブタスクプロンプトを生成し、検証する。
ローカルLLMは、ローカルでサブタスクを実行し、クラウドLLMによって生成された出力を合成する。
NCCNガイドラインに基づく100例の放射線検査で膵癌ステージングにおけるMedOrchestraの評価を行った。
フリーテキストのレポートでは、MedOrchestraは70.21%の精度で、地元のモデルベースライン(ガイドラインなし:48.94%、ガイドラインなし:56.59%)と医師(胃科医:59.57%、外科医:65.96%、放射線技師:55.32%)を上回っている。
構造化レポートでは、MedOrchestraは85.42%の精度に達し、すべての設定で明らかな優位性を示している。
関連論文リスト
- MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。
MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。
本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文 参考訳(メタデータ) (2025-05-16T18:21:52Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - Can Large Language Models Replace Data Scientists in Biomedical Research? [28.211990967264818]
大規模言語モデル(LLM)は、医学的タスクをサポートし、一般的なコーディングテストでうまく機能する可能性を示している。
このベンチマークは、現実のTCGA型ゲノム学および臨床データで実行される293のコーディングタスク(Pythonで128、Rで165)からなる。
LLMを医療専門家のためのデータサイエンスワークフローに統合するプラットフォームを開発した。
論文 参考訳(メタデータ) (2024-10-28T22:48:06Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。
また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文 参考訳(メタデータ) (2024-01-25T19:57:00Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。