論文の概要: Leveraging large language models for structured information extraction from pathology reports
- arxiv url: http://arxiv.org/abs/2502.12183v1
- Date: Fri, 14 Feb 2025 21:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:24.955693
- Title: Leveraging large language models for structured information extraction from pathology reports
- Title(参考訳): 病理報告からの構造化情報抽出のための大規模言語モデルの導入
- Authors: Jeya Balaji Balasubramanian, Daniel Adams, Ioannis Roxanis, Amy Berrington de Gonzalez, Penny Coulson, Jonas S. Almeida, Montserrat García-Closas,
- Abstract要約: 乳がん病理組織学的報告から構造情報を抽出する際の大規模言語モデルの精度を評価する。
構造化情報抽出のためのオープンソースツールは、自然言語を使って非プログラマがカスタマイズできる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Background: Structured information extraction from unstructured histopathology reports facilitates data accessibility for clinical research. Manual extraction by experts is time-consuming and expensive, limiting scalability. Large language models (LLMs) offer efficient automated extraction through zero-shot prompting, requiring only natural language instructions without labeled data or training. We evaluate LLMs' accuracy in extracting structured information from breast cancer histopathology reports, compared to manual extraction by a trained human annotator. Methods: We developed the Medical Report Information Extractor, a web application leveraging LLMs for automated extraction. We developed a gold standard extraction dataset to evaluate the human annotator alongside five LLMs including GPT-4o, a leading proprietary model, and the Llama 3 model family, which allows self-hosting for data privacy. Our assessment involved 111 histopathology reports from the Breast Cancer Now (BCN) Generations Study, extracting 51 pathology features specified in the study's data dictionary. Results: Evaluation against the gold standard dataset showed that both Llama 3.1 405B (94.7% accuracy) and GPT-4o (96.1%) achieved extraction accuracy comparable to the human annotator (95.4%; p = 0.146 and p = 0.106, respectively). While Llama 3.1 70B (91.6%) performed below human accuracy (p <0.001), its reduced computational requirements make it a viable option for self-hosting. Conclusion: We developed an open-source tool for structured information extraction that can be customized by non-programmers using natural language. Its modular design enables reuse for various extraction tasks, producing standardized, structured data from unstructured text reports to facilitate analytics through improved accessibility and interoperability.
- Abstract(参考訳): 背景: 病理組織学報告からの構造化情報抽出は臨床研究におけるデータアクセシビリティを促進する。
専門家による手作業の抽出は時間と費用がかかり、スケーラビリティが制限される。
大規模言語モデル(LLM)はゼロショットプロンプトによる効率的な自動抽出を提供する。
乳がんの病理組織学的報告から構造情報を抽出する際のLSMsの精度を,訓練されたヒトアノテータによる手動抽出と比較して評価した。
方法: 自動抽出のための LLM を利用した Web アプリケーションである Medical Report Information Extractor を開発した。
我々は、主要なプロプライエタリモデルであるGPT-4oとデータプライバシの自己ホストを可能にするLlama 3モデルファミリを含む5つのLCMとともに、人間のアノテータを評価するための金標準抽出データセットを開発した。
対象はBCN(Breast Cancer Now, BCN)Generations Studyの111例で, 本研究のデータ辞書に記載された51例の病理像を抽出した。
結果: Llama 3.1 405B (94.7%の精度) と GPT-4o (96.1%) の両方がヒトアノテータ (95.4%; p = 0.146, p = 0.106) に匹敵する抽出精度を達成した。
Llama 3.1 70B (91.6%) は人間の精度以下 (p <0.001) で実行されたが、計算能力の低下によりセルフホスティングの選択肢となった。
結論: 自然言語を用いた非プログラマがカスタマイズ可能な構造化情報抽出ツールを開発した。
モジュラー設計により、さまざまな抽出タスクの再利用が可能になり、構造化されていないテキストレポートから標準化された構造化データを生成し、アクセシビリティと相互運用性の改善を通じて分析を容易にする。
関連論文リスト
- Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文 参考訳(メタデータ) (2024-09-15T15:21:45Z) - BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine [19.861178160437827]
大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきた。
textscBiomedRAGは5つのバイオメディカルNLPタスクで優れたパフォーマンスを実現している。
textscBiomedRAG は、GIT と ChemProt コーパスにおいて、マイクロF1スコアが 81.42 と 88.83 の他のトリプル抽出システムより優れている。
論文 参考訳(メタデータ) (2024-05-01T12:01:39Z) - Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers [0.29530625605275984]
構造化報告(SR)は様々な医療社会で推奨されている。
自由テキストレポートから情報を抽出するパイプラインを提案する。
我々の研究は自然言語処理(NLP)とトランスフォーマーベースのモデルを活用することを目的としている。
論文 参考訳(メタデータ) (2024-03-27T18:38:39Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Zero-shot information extraction from radiological reports using ChatGPT [19.457604666012767]
情報抽出は文字列を構造化データに変換する戦略である。
様々な下流のNLPタスクにおいて、大きな言語モデルが優れた性能を発揮するため、ゼロショット情報抽出に大規模な言語モデルを使用することが可能である。
本研究では,最もポピュラーな大規模言語モデルであるChatGPTが,放射線学的報告から有用な情報を抽出できるかどうかを検討することを目的とする。
論文 参考訳(メタデータ) (2023-09-04T07:00:26Z) - Validation of a Zero-Shot Learning Natural Language Processing Tool for
Data Abstraction from Unstructured Healthcare Data [0.0]
OpenAI の GPT3.5 モデルに基づいてデータ抽象化ツールを開発した。
タスク完了までの時間とデータの抽象化の精度の点で、人間の3つの抽象体と比較した。
このツールは、データの抽象化速度と精度の非偽性に優れていると評価された。
論文 参考訳(メタデータ) (2023-07-23T17:52:28Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。