論文の概要: Universal Abstraction: Harnessing Frontier Models to Structure Real-World Data at Scale
- arxiv url: http://arxiv.org/abs/2502.00943v2
- Date: Tue, 19 Aug 2025 00:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.396896
- Title: Universal Abstraction: Harnessing Frontier Models to Structure Real-World Data at Scale
- Title(参考訳): Universal Abstraction: 大規模に実世界データを構築するためのフロンティアモデル
- Authors: Cliff Wong, Sam Preston, Qianchu Liu, Zelalem Gero, Jaspreet Bagga, Sheng Zhang, Shrey Jain, Theodore Zhao, Yu Gu, Yanbo Xu, Sid Kiblawi, Srinivasan Yegnasubramanian, Taxiarchis Botsis, Marvin Borja, Luis M. Ahumada, Joseph C. Murray, Guo Hui Gan, Roshanthi Weerasinghe, Kristina Young, Rom Leidner, Brian Piening, Carlo Bifulco, Tristan Naumann, Mu Wei, Hoifung Poon,
- Abstract要約: 実際の患者情報のかなりの部分は、構造化されていない臨床テキストに存在している。
医学的抽象化は、フリーテキスト臨床ノートから重要な構造化属性を抽出し、正規化する。
ゼロショット医療抽象化のための統一フレームワークであるUniMedAbstractor(UMA)を提案する。
- 参考スコア(独自算出の注目度): 15.273325903293486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant fraction of real-world patient information resides in unstructured clinical text. Medical abstraction extracts and normalizes key structured attributes from free-text clinical notes, which is the prerequisite for a variety of important downstream applications, including registry curation, clinical trial operations, and real-world evidence generation. Prior medical abstraction methods typically resort to building attribute-specific models, each of which requires extensive manual effort such as rule creation or supervised label annotation for the individual attribute, thus limiting scalability. In this paper, we show that existing frontier models already possess the universal abstraction capability for scaling medical abstraction to a wide range of clinical attributes. We present UniMedAbstractor (UMA), a unifying framework for zero-shot medical abstraction with a modular, customizable prompt template and the selection of any frontier large language models. Given a new attribute for abstraction, users only need to conduct lightweight prompt adaptation in UMA to adjust the specification in natural languages. Compared to traditional methods, UMA eliminates the need for attribute-specific training labels or handcrafted rules, thus substantially reducing the development time and cost. We conducted a comprehensive evaluation of UMA in oncology using a wide range of marquee attributes representing the cancer patient journey. These include relatively simple attributes typically specified within a single clinical note (e.g. performance status), as well as complex attributes requiring sophisticated reasoning across multiple notes at various time points (e.g. tumor staging). Based on a single frontier model such as GPT-4o, UMA matched or even exceeded the performance of state-of-the-art attribute-specific methods, each of which was tailored to the individual attribute.
- Abstract(参考訳): 実際の患者情報のかなりの部分は、構造化されていない臨床テキストに存在している。
医学的抽象化は、フリーテキスト臨床ノートから重要な構造化属性を抽出し、標準化する。これは、レジストリキュレーション、臨床試験、実世界のエビデンス生成など、さまざまな重要な下流アプリケーションに必須である。
従来の医学的抽象化手法では、属性固有のモデルを構築するのが一般的であり、それぞれがルールの作成や個々の属性のラベルアノテーションの監督といった広範囲な手作業を必要とするため、スケーラビリティが制限される。
本稿では,既存のフロンティアモデルが,医学的抽象化を幅広い臨床属性に拡張するための普遍的な抽象化能力を持っていることを示す。
われわれはUniMedAbstractor(UMA)について紹介する。UniMedAbstractorは、モジュラーでカスタマイズ可能なプロンプトテンプレートと、フロンティアの大言語モデルの選択を備えたゼロショット医療抽象化のための統一フレームワークである。
抽象化のための新しい属性が与えられた場合、ユーザは自然言語の仕様を調整するために、UMAで軽量なプロンプト適応を実行するだけでよい。
従来の方法と比較して、UMAは属性固有のトレーニングラベルや手作りルールの必要性を排除し、開発時間とコストを大幅に削減する。
腫瘍学におけるUMAの包括的評価を,がん患者の経過を示す幅広いマーキー属性を用いて行った。
これには、通常、単一の臨床ノート(例えば、パフォーマンスステータス)内で特定される比較的単純な属性や、様々な時点(例えば、腫瘍のステージング)で複数のノートにまたがる洗練された推論を必要とする複雑な属性が含まれる。
GPT-4oのような単一フロンティアモデルに基づいて、UMAは個々の属性に合わせて調整された最先端の属性固有のメソッドのパフォーマンスを一致または超えた。
関連論文リスト
- Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation [4.286815457787583]
Causal-SAM-LLMはLarge Language Models(LLM)を因果推論の役割に高める新しいフレームワークである。
第一に、Linguistic Adrial Disentanglement (LAD)は視覚言語モデルを用いて、融合した画像スタイルのリッチでテキストによる記述を生成する。
第2に、Test-Time Causal Intervention (TCI)は、LLMが臨床者の自然言語コマンドを解釈し、セグメント化デコーダの特徴をリアルタイムで変調する対話的なメカニズムを提供する。
論文 参考訳(メタデータ) (2025-07-04T13:52:16Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models [3.1277841304339065]
本研究は,臨床大言語モデル(cLLMs)の医療史エンティティ(MHEs)認識における性能評価である。
MTSamplesレポジトリから61例の外来臨床ノートに1,449例の診断を行った。
cLLMsはMHEの抽出に要する時間を20%以上短縮する可能性を示した。
論文 参考訳(メタデータ) (2025-03-30T02:00:56Z) - Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation [30.524999223901645]
完全教師なし方式で生成されるアノテーション効率のよいプロンプトを利用するSAM(Segment Anything Model)フレームワークを提案する。
我々は、モデルが高忠実度セグメンテーションを生成できるように最適なポリシーを設計するために、直接選好最適化手法を採用する。
X線, 超音波, 腹部CTなど多彩な領域にわたる肺分節, 乳房腫瘍分節, 臓器分節などのタスクにおける我々のフレームワークの最先端性能は, 低アノテーションデータシナリオにおけるその有効性を正当化するものである。
論文 参考訳(メタデータ) (2025-03-06T17:28:48Z) - SemiSAM+: Rethinking Semi-Supervised Medical Image Segmentation in the Era of Foundation Models [23.402987690611827]
SemiSAM+は、医療画像セグメンテーションのための限定ラベル付きデータから効率的に学習する基盤モデル駆動SSLフレームワークである。
SemiSAM+は、ジェネラリストモデルとして1つまたは複数のプロンプト可能な基礎モデルと、専門家モデルとして訓練可能なタスク固有のセグメンテーションモデルで構成されている。
2つの公開データセットと1つの社内臨床データセットの実験は、SemiSAM+が大幅なパフォーマンス改善を実現していることを示している。
論文 参考訳(メタデータ) (2025-02-28T05:54:41Z) - GENIE: Generative Note Information Extraction model for structuring EHR data [14.057531175321113]
生成ノート情報抽出システムGENIEを紹介する。
GENIEは1つのパスで全段落を処理し、エンティティ、アサーションステータス、ロケーション、修飾子、値、目的を高精度に抽出する。
堅牢なデータ準備パイプラインと微調整された小型LLMを使用して、GENIEは複数の情報抽出タスク間での競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T15:42:24Z) - Representation Learning of Structured Data for Medical Foundation Models [29.10129199884847]
我々はUniStructアーキテクチャを導入し、構造化されていないテキストと構造化データのマルチモーダル医療基盤モデルを設計する。
本手法は,広範囲な内部医療データベースと構造化医療記録の公開リポジトリのモデル事前学習を通じて検証される。
論文 参考訳(メタデータ) (2024-10-17T09:02:28Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models [1.123722364748134]
本稿では,Large Language Models(LLMs)を利用した名前付きエンティティ認識(NER)アプローチであるGAMedXを紹介する。
この方法論は、NERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖プロンプトとピダンティックスキーマを構造化出力に利用している。
その結果, 評価データセットの1つに対して, 98%の精度でROUGE F1の有意なスコアが得られた。
論文 参考訳(メタデータ) (2024-05-31T02:53:22Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Local Large Language Models for Complex Structured Medical Tasks [0.0]
本稿では,大規模言語モデルの言語推論機能と,複雑なドメイン特化タスクに取り組むための局所学習の利点を組み合わせたアプローチを提案する。
具体的には,病理報告から構造化条件コードを抽出し,そのアプローチを実証する。
論文 参考訳(メタデータ) (2023-08-03T12:36:13Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。