論文の概要: Few-Shot Large Language Models for Actionable Triage Categorization of Online Patient Inquiries
- arxiv url: http://arxiv.org/abs/2605.15680v1
- Date: Fri, 15 May 2026 07:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.202825
- Title: Few-Shot Large Language Models for Actionable Triage Categorization of Online Patient Inquiries
- Title(参考訳): オンライン患者問合せの行動可能なトリアージ分類のための少数ショット大言語モデル
- Authors: Liqi Zhou, Jiafu Li,
- Abstract要約: オンライン患者の問い合わせは、しばしば非公式で不完全であり、専門家の査定の前に書かれるが、適切なレベルの臨床フォローアップにルーティングされなければならない。
我々はこれを,セルフケア,スケジュールビジット,緊急クリニシアンレビュー,緊急リファラルという,4段階の行動可能なトリアージタスクとして研究する。
我々は,低リソースラベル付け条件下で,大規模言語モデル(LLM)がそのようなルーティングをサポートできるかどうかを問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online patient inquiries are often informal, incomplete, and written before professional assessment, yet they must still be routed to an appropriate level of clinical follow-up. We study this as a four-class actionable triage task -- self-care, schedule-visit, urgent-clinician-review, or emergency-referral, and ask whether prompted large language models (LLMs) can support such routing under low-resource labeling conditions. Using the public HealthCareMagic-100K corpus, we construct a 300-example human calibrated gold evaluation set, a 700-example auto-labeled silver training set, and a 40-example few-shot pool. We compare Term Frequency-Inverse Document Frequency (TF-IDF) and Bidirectional Encoder Representations from Transformers for Biomedical Text Mining (BioBERT) baselines train on silver labels against six prompted LLMs under 0-shot, 4-shot, and 12-shot conditions respectively. Accordingly, we evaluate with macro-$F_1$ alongside safety-aware metrics, including emergency-recall, under-triage rate, and severe under-triage rate. The strongest LLM (Claude Haiku 4.5, 12-shot) reaches macro-$F_1$ 0.475, exceeding the best supervised baseline (BioBERT, 0.378) on point estimate, with overlapping confidence intervals. Few-shot prompting and two-model agreement help in label-dependent ways: self-care agreement is reliable, urgent-clinician-review is not. We conclude that LLMs can support triage prioritization and selective human review, but not autonomous deployment.
- Abstract(参考訳): オンライン患者の問い合わせは、しばしば非公式で不完全であり、専門家の査定の前に書かれるが、適切なレベルの臨床フォローアップにルーティングされなければならない。
我々はこれを,セルフケア,スケジュールビジット,緊急クリニシアンレビュー,緊急リファラルという4段階の行動可能なトリアージタスクとして検討し,低リソースラベル付け条件下で大規模言語モデル(LLM)がそのようなルーティングをサポートできるかどうかを問う。
公衆のHealthCareMagic-100Kコーパスを用いて、300サンプルのヒト校正金の評価セット、700サンプルのオートラベル銀のトレーニングセット、40サンプルのショットプールを構築した。
バイオメディカルテキストマイニング用トランスフォーマー(BioBERT)ベースラインの周波数-逆文書周波数(TF-IDF)と双方向エンコーダ表現(BioBERT)を比較した。
以上より, 緊急呼び出し, 減量率, 重度の減量率など, 安全を意識した指標とともにマクロ・ドルF_1$で評価した。
最強の LLM (Claude Haiku 4.5, 12-shot) はマクロ値 F_1$ 0.475 に達し、点推定で最高の教師付きベースライン (BioBERT, 0.378) を超える。
ラベルに依存した方法では、プロンプトと2つのモデル契約が有効である: セルフケア契約は信頼性があり、緊急クリニックレビューはそうではない。
我々は、LCMはトリアージ優先化と選択的人間レビューをサポートできるが、自律的な展開はできないと結論付けた。
関連論文リスト
- MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - MLB: A Scenario-Driven Benchmark for Evaluating Large Language Models in Clinical Applications [27.73095565539546]
基礎知識とシナリオベース推論の両方に基づいて,LLM(Large Language Models)を評価するベンチマークである医療用LLMベンチマークMLBを紹介する。
MLBは、医療知識(MedKQA)、安全と倫理(MedSE)、医療記録理解(MedRU)、スマートサービス(SmartServ)、スマートヘルスケア(SmartCare)の5つのコア次元で構成されている。
その設計は、300人の医師が参加する厳格なキュレーションパイプラインを特徴としている。また、専門家アノテーションに基づいて訓練されたSFT(Supervised Fine-Tuning)を用いた特別審査モデルを中心に、スケーラブルな評価手法を提供する。
論文 参考訳(メタデータ) (2026-01-08T02:41:42Z) - Patient-Centered Summarization Framework for AI Clinical Summarization: A Mixed-Methods Design [23.21070690395588]
患者中心サマリ(PCS)における人工知能(AI)臨床要約タスクの新しい標準を提案する。
本研究の目的は,患者価値を捉え,臨床的有用性を確保するためのPCS作成フレームワークを開発することである。
5つのオープンソース LLM がゼロショットプロンプトと少数ショットプロンプトを使用して72のコンサルテーションの要約を生成する。
論文 参考訳(メタデータ) (2025-10-31T15:08:18Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - VSF-Med:A Vulnerability Scoring Framework for Medical Vision-Language Models [6.390468088226493]
VSF-Medは医療ビジョン言語モデル(VLM)のためのエンドツーエンドの脆弱性修正フレームワークである。
VSF-Medは5000個の放射線画像から3万以上の敵の変種を合成し、単一のコマンドで医療用VLMの再現可能なベンチマークを可能にする。
Llama-3.2-11B-Vision-Instructは、攻撃効果の持続性に対して1.29sigma$をピーク脆弱性として、GPT-4oは0.69sigma$を同じベクトルに対して0.28sigma$をピーク脆弱性として示す。
論文 参考訳(メタデータ) (2025-06-25T02:56:38Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。