論文の概要: Assessing Large Language Models for Structured Medical Order Extraction
- arxiv url: http://arxiv.org/abs/2510.10475v1
- Date: Sun, 12 Oct 2025 06:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.963037
- Title: Assessing Large Language Models for Structured Medical Order Extraction
- Title(参考訳): 構造化医療秩序抽出のための大規模言語モデルの評価
- Authors: A H M Rezaul Karim, Ozlem Uzuner,
- Abstract要約: MEDIQA-OE 2025の共有タスクは、拡張された会話の書き起こしから構造化された医療命令を抽出することに焦点を当てている。
合計105名の参加チームの中で5位にランクインしたメイソンの応募を提示する。
この数発構成はF1点平均37.76点を達成し、推理精度と精度が向上した。
- 参考スコア(独自算出の注目度): 0.6015898117103068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical order extraction is essential for structuring actionable clinical information, supporting decision-making, and enabling downstream applications such as documentation and workflow automation. Orders may be embedded in diverse sources, including electronic health records, discharge summaries, and multi-turn doctor-patient dialogues, and can span categories such as medications, laboratory tests, imaging studies, and follow-up actions. The MEDIQA-OE 2025 shared task focuses on extracting structured medical orders from extended conversational transcripts, requiring the identification of order type, description, reason, and provenance. We present the MasonNLP submission, which ranked 5th among 17 participating teams with 105 total submissions. Our approach uses a general-purpose, instruction-tuned LLaMA-4 17B model without domain-specific fine-tuning, guided by a single in-context example. This few-shot configuration achieved an average F1 score of 37.76, with notable improvements in reason and provenance accuracy. These results demonstrate that large, non-domain-specific LLMs, when paired with effective prompt engineering, can serve as strong, scalable baselines for specialized clinical NLP tasks.
- Abstract(参考訳): 医療秩序抽出は、実行可能な臨床情報の構築、意思決定のサポート、ドキュメントやワークフロー自動化などの下流アプリケーションの実現に不可欠である。
注文は、電子的な健康記録、放電サマリー、多ターンの医師と患者との対話など様々な情報源に埋め込まれ、医薬品、検査検査、画像研究、フォローアップアクションなどのカテゴリにまたがることができる。
MEDIQA-OE 2025の共有タスクは、拡張された会話の書き起こしから構造化された医療命令を抽出することに焦点を当て、注文タイプ、説明、理由、証明の識別を必要とする。
参加チームは17チーム中5位,合計105チームが応募した。
提案手法では,LLaMA-4 17Bモデルに対して,ドメイン固有の微調整を伴わない汎用的な命令調整モデルを用いる。
この数発構成はF1点平均37.76点を達成し、推理精度と精度が向上した。
これらの結果から,大規模な非ドメイン特異的LPMと効果的なプロンプトエンジニアリングを組み合わせれば,特殊なNLPタスクに対して,強力でスケーラブルなベースラインとして機能することが示唆された。
関連論文リスト
- Intelligent Documentation in Medical Education: Can AI Replace Manual Case Logging? [1.3266402517619373]
手続き的なケースログは、放射線学のトレーニングのコア要件であるが、完成には時間がかかり、手作業で作成する場合には一貫性が低下する。
本研究では,大規模言語モデル (LLM) が自由テキストラジオグラフィーレポートから直接,手続き的ケースログの文書化を自動化できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-01-19T01:45:51Z) - CNSight: Evaluation of Clinical Note Segmentation Tools [3.673249612734457]
また,MIMIC-IVから得られた1000音符のキュレートデータセットを用いて,ルールベースベースベースライン,ドメイン固有トランスフォーマーモデル,および臨床ノートセグメンテーションのための大規模言語モデルの評価を行った。
GPT-5-miniは文レベルと自由テキストセグメンテーションで平均72.4のF1に達する。
論文 参考訳(メタデータ) (2025-12-28T05:40:15Z) - Enabling Doctor-Centric Medical AI with LLMs through Workflow-Aligned Tasks and Benchmarks [72.89088985703748]
大きな言語モデル(LLM)の台頭は、臨床ガイダンスを提供することで医療に変化をもたらしたが、患者への直接の展開は安全性のリスクをもたらす。
我々は,患者と直接対話するのではなく,経験豊富な医師と協力する臨床助手としてLLMを再配置することを提案する。
我々は、22の臨床的タスクと27の専門分野にわたる92,000のQ&Aインスタンスからなる大規模な中国の医療データセットであるDoctorFLANを構築した。
論文 参考訳(メタデータ) (2025-10-13T06:18:27Z) - Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA [0.6015898117103068]
MedVQA (Medicical Visual Question Answering) は、医療画像上の自然言語クエリーを、臨床的な意思決定と患者医療を支援する。
本稿では,汎用的な命令調整型大規模言語モデルと検索拡張生成(RAG)フレームワークを用いたMasonNLPシステムを提案する。
19チーム中3位、51チームが平均41.37%の成績を残した。
論文 参考訳(メタデータ) (2025-10-12T07:03:58Z) - MedBookVQA: A Systematic and Comprehensive Medical Benchmark Derived from Open-Access Book [5.318470975871017]
MedBookVQAは、オープンアクセス医療教科書から派生した、体系的で包括的なマルチモーダルベンチマークである。
当科では, モダリティ認識, 分類, 解剖学的診断, 症状診断, 外科的手術を含む, 5000の臨床的関連質問項目を作成した。
我々は、プロプライエタリ、オープンソース、医療、推論モデルを含む幅広いMLLMを評価し、タスクタイプとモデルカテゴリ間での大幅なパフォーマンス格差を明らかにした。
論文 参考訳(メタデータ) (2025-06-01T06:28:36Z) - MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。
MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。
本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文 参考訳(メタデータ) (2025-05-16T18:21:52Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。