論文の概要: Universal Abstraction: Harnessing Frontier Models to Structure Real-World Data at Scale
- arxiv url: http://arxiv.org/abs/2502.00943v1
- Date: Sun, 02 Feb 2025 22:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:54.30302
- Title: Universal Abstraction: Harnessing Frontier Models to Structure Real-World Data at Scale
- Title(参考訳): Universal Abstraction: 大規模に実世界データを構築するためのフロンティアモデル
- Authors: Cliff Wong, Sam Preston, Qianchu Liu, Zelalem Gero, Jass Bagga, Sheng Zhang, Shrey Jain, Theodore Zhao, Yu Gu, Yanbo Xu, Sid Kiblawi, Roshanthi Weerasinghe, Rom Leidner, Kristina Young, Brian Piening, Carlo Bifulco, Tristan Naumann, Mu Wei, Hoifung Poon,
- Abstract要約: LLM(Large Language Models)を利用したゼロショット医療抽象化フレームワークUniMedAbstractor(UMA)を提案する。
UMAは、属性固有のトレーニングラベルやルールをキュレーションすることなく、その普遍的なプロンプトテンプレートを通じて、新しい属性にすばやくスケールすることができる。
UMAを腫瘍学の応用として評価し,がん患者の経過を示す15のキー属性に焦点をあてた。
- 参考スコア(独自算出の注目度): 16.483707546185595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vast majority of real-world patient information resides in unstructured clinical text, and the process of medical abstraction seeks to extract and normalize structured information from this unstructured input. However, traditional medical abstraction methods can require significant manual efforts that can include crafting rules or annotating training labels, limiting scalability. In this paper, we propose UniMedAbstractor (UMA), a zero-shot medical abstraction framework leveraging Large Language Models (LLMs) through a modular and customizable prompt template. We refer to our approach as universal abstraction as it can quickly scale to new attributes through its universal prompt template without curating attribute-specific training labels or rules. We evaluate UMA for oncology applications, focusing on fifteen key attributes representing the cancer patient journey, from short-context attributes (e.g., performance status, treatment) to complex long-context attributes requiring longitudinal reasoning (e.g., tumor site, histology, TNM staging). Experiments on real-world data show UMA's strong performance and generalizability. Compared to supervised and heuristic baselines, UMA with GPT-4o achieves on average an absolute 2-point F1/accuracy improvement for both short-context and long-context attribute abstraction. For pathologic T staging, UMA even outperforms the supervised model by 20 points in accuracy.
- Abstract(参考訳): 現実世界の患者情報の大部分は、構造化されていない臨床テキストに残っており、医療抽象化のプロセスはこの構造化されていない入力から構造化された情報を抽出し、標準化しようとしている。
しかし、従来の医療抽象化手法は、作成ルールやトレーニングラベルの注釈付け、スケーラビリティの制限を含む、かなりの手作業を必要とする可能性がある。
本稿では,UniMedAbstractor(UMA)を提案する。LLM(Large Language Models)を利用したゼロショット医療抽象化フレームワークである。
我々は、属性固有のトレーニングラベルやルールを計算せずに、そのユニバーサルプロンプトテンプレートを通じて、新しい属性に迅速にスケールできるため、我々のアプローチを普遍的な抽象化と呼んでいる。
腫瘍部位, 病理組織学的, TNM ステージングなど, がん患者の経過を表す15つの重要な属性(例えば, パフォーマンス, 治療)から, 長期的推論を必要とする複雑な長文属性(例えば, 腫瘍部位, 組織学, TNM ステージング)に焦点をあてて, 腫瘍学応用のUMAを評価した。
実世界のデータに関する実験は、UMAの強い性能と一般化可能性を示している。
教師付きベースラインやヒューリスティックベースラインと比較して、GPT-4oのUMAは、短文と長文の両方の属性の抽象化に対して、絶対的な2点F1/精度の向上を実現している。
病理的なTステージングでは、UMAは教師付きモデルよりも20ポイント精度が高い。
関連論文リスト
- Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models [3.1277841304339065]
本研究は,臨床大言語モデル(cLLMs)の医療史エンティティ(MHEs)認識における性能評価である。
MTSamplesレポジトリから61例の外来臨床ノートに1,449例の診断を行った。
cLLMsはMHEの抽出に要する時間を20%以上短縮する可能性を示した。
論文 参考訳(メタデータ) (2025-03-30T02:00:56Z) - Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation [30.524999223901645]
完全教師なし方式で生成されるアノテーション効率のよいプロンプトを利用するSAM(Segment Anything Model)フレームワークを提案する。
我々は、モデルが高忠実度セグメンテーションを生成できるように最適なポリシーを設計するために、直接選好最適化手法を採用する。
X線, 超音波, 腹部CTなど多彩な領域にわたる肺分節, 乳房腫瘍分節, 臓器分節などのタスクにおける我々のフレームワークの最先端性能は, 低アノテーションデータシナリオにおけるその有効性を正当化するものである。
論文 参考訳(メタデータ) (2025-03-06T17:28:48Z) - SemiSAM+: Rethinking Semi-Supervised Medical Image Segmentation in the Era of Foundation Models [23.402987690611827]
SemiSAM+は、医療画像セグメンテーションのための限定ラベル付きデータから効率的に学習する基盤モデル駆動SSLフレームワークである。
SemiSAM+は、ジェネラリストモデルとして1つまたは複数のプロンプト可能な基礎モデルと、専門家モデルとして訓練可能なタスク固有のセグメンテーションモデルで構成されている。
2つの公開データセットと1つの社内臨床データセットの実験は、SemiSAM+が大幅なパフォーマンス改善を実現していることを示している。
論文 参考訳(メタデータ) (2025-02-28T05:54:41Z) - GENIE: Generative Note Information Extraction model for structuring EHR data [14.057531175321113]
生成ノート情報抽出システムGENIEを紹介する。
GENIEは1つのパスで全段落を処理し、エンティティ、アサーションステータス、ロケーション、修飾子、値、目的を高精度に抽出する。
堅牢なデータ準備パイプラインと微調整された小型LLMを使用して、GENIEは複数の情報抽出タスク間での競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T15:42:24Z) - Representation Learning of Structured Data for Medical Foundation Models [29.10129199884847]
我々はUniStructアーキテクチャを導入し、構造化されていないテキストと構造化データのマルチモーダル医療基盤モデルを設計する。
本手法は,広範囲な内部医療データベースと構造化医療記録の公開リポジトリのモデル事前学習を通じて検証される。
論文 参考訳(メタデータ) (2024-10-17T09:02:28Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models [1.123722364748134]
本稿では,Large Language Models(LLMs)を利用した名前付きエンティティ認識(NER)アプローチであるGAMedXを紹介する。
この方法論は、NERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖プロンプトとピダンティックスキーマを構造化出力に利用している。
その結果, 評価データセットの1つに対して, 98%の精度でROUGE F1の有意なスコアが得られた。
論文 参考訳(メタデータ) (2024-05-31T02:53:22Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Local Large Language Models for Complex Structured Medical Tasks [0.0]
本稿では,大規模言語モデルの言語推論機能と,複雑なドメイン特化タスクに取り組むための局所学習の利点を組み合わせたアプローチを提案する。
具体的には,病理報告から構造化条件コードを抽出し,そのアプローチを実証する。
論文 参考訳(メタデータ) (2023-08-03T12:36:13Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。