論文の概要: CheX-GPT: Harnessing Large Language Models for Enhanced Chest X-ray Report Labeling
- arxiv url: http://arxiv.org/abs/2401.11505v2
- Date: Wed, 06 Nov 2024 04:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:20:30.582265
- Title: CheX-GPT: Harnessing Large Language Models for Enhanced Chest X-ray Report Labeling
- Title(参考訳): CheX-GPT: 拡張胸部X線レポートラベリングのための大規模言語モデル
- Authors: Jawook Gu, Kihyun You, Han-Cheol Cho, Jiho Kim, Eun Kyoung Hong, Byungseok Roh,
- Abstract要約: 自由テキストラジオロジーレポートは、様々な医療タスクのための豊富なデータソースを提示するが、これらのテキストを効果的にラベル付けすることは依然として困難である。
1)慎重に設計したプロンプトを用いて,GPTの潜在ラベリングの可能性を示すこと,2)GPTよりも高速かつ効率的に動作するBERTベースのラベリングCheX-GPTをトレーニングすること,3)ラベリングのパフォーマンスをベンチマークするために,公開のエキスパートアノテートテストセットMIMIC-500を導入したこと,の3つが主な貢献である。
- 参考スコア(独自算出の注目度): 6.813646734420541
- License:
- Abstract: Free-text radiology reports present a rich data source for various medical tasks, but effectively labeling these texts remains challenging. Traditional rule-based labeling methods fall short of capturing the nuances of diverse free-text patterns. Moreover, models using expert-annotated data are limited by data scarcity and pre-defined classes, impacting their performance, flexibility and scalability. To address these issues, our study offers three main contributions: 1) We demonstrate the potential of GPT as an adept labeler using carefully designed prompts. 2) Utilizing only the data labeled by GPT, we trained a BERT-based labeler, CheX-GPT, which operates faster and more efficiently than its GPT counterpart. 3) To benchmark labeler performance, we introduced a publicly available expert-annotated test set, MIMIC-500, comprising 500 cases from the MIMIC validation set. Our findings demonstrate that CheX-GPT not only excels in labeling accuracy over existing models, but also showcases superior efficiency, flexibility, and scalability, supported by our introduction of the MIMIC-500 dataset for robust benchmarking. Code and models are available at https://github.com/Soombit-ai/CheXGPT.
- Abstract(参考訳): 自由テキストラジオロジーレポートは、様々な医療タスクのための豊富なデータソースを提示するが、これらのテキストを効果的にラベル付けすることは依然として困難である。
従来のルールベースのラベリング手法は、多様な自由テキストパターンのニュアンスをキャプチャできない。
さらに、専門家アノテートされたデータを使用するモデルは、データ不足と事前定義されたクラスによって制限され、そのパフォーマンス、柔軟性、スケーラビリティに影響を与えます。
これらの課題に対処するため、本研究は3つの主要な貢献をしている。
1) 慎重に設計したプロンプトを用いて, GPT がアデプトラベラとしての可能性を示す。
2) GPTでラベル付けされたデータのみを利用することで,GPTよりも高速かつ効率的に動作するBERTベースのラベラであるCheX-GPTを訓練した。
3) ラベルラー性能のベンチマークを行うため,MIMIC検証セットから500ケースを収録したMIMIC-500を一般公開した。
以上の結果から,CheX-GPTは既存のモデルよりも精度に優れるだけでなく,堅牢なベンチマークのためのMIMIC-500データセットの導入によって,優れた効率,柔軟性,拡張性を示すことがわかった。
コードとモデルはhttps://github.com/Soombit-ai/CheXGPTで入手できる。
関連論文リスト
- From Lazy to Prolific: Tackling Missing Labels in Open Vocabulary Extreme Classification by Positive-Unlabeled Sequence Learning [5.979699034554517]
Open-vocabulary Extreme Multi-label Classification (OXMC)は、従来のXMCを拡張し、ラベルセットが103ドルから1012ドルを超える予測を可能にする。
データアノテーションにおける自己選択バイアスは、トレーニングデータとテストデータの両方に重大な欠陥ラベルをもたらす。
本稿では OXMC をキーフレーズ生成タスクとして再構成する PUSL (Positive-Unlabeled Sequence Learning) を提案する。
論文 参考訳(メタデータ) (2024-08-16T19:10:48Z) - Enhancing chest X-ray datasets with privacy-preserving large language models and multi-type annotations: a data-driven approach for improved classification [0.6144680854063935]
胸部X線(CXR)画像解析では、通常、ルールベースのシステムはデータセットリリースのレポートからラベルを抽出するために使用される。
本稿では,局所的に実行可能なLarge Language Model (LLM) を利用して,発見ラベルの抽出と拡張を行う新しいアプローチであるMAPLEZを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:10:41Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Investigating Large Language Models and Control Mechanisms to Improve Text Readability of Biomedical Abstracts [16.05119302860606]
本稿では,生物医学的抽象的単純化作業における最先端の大規模言語モデル(LLM)の能力について検討する。
適用方法はドメインファインチューニングとプロンプトベースラーニング(PBL)である。
BLEU,ROUGE,SARI,BERTscoreなど,さまざまな自動評価指標を用い,人的評価を行った。
論文 参考訳(メタデータ) (2023-09-22T22:47:32Z) - Automated Labeling of German Chest X-Ray Radiology Reports using Deep
Learning [50.591267188664666]
本稿では,ルールベースのドイツ語CheXpertモデルによってラベル付けされたレポートに基づいて,ディープラーニングに基づくCheXpertラベル予測モデルを提案する。
その結果,3つのタスクすべてにおいて,ルールベースモデルを大幅に上回ったアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-06-09T16:08:35Z) - Text-Augmented Open Knowledge Graph Completion via Pre-Trained Language
Models [53.09723678623779]
本稿では,高品質なクエリプロンプトを自動的に生成し,大規模テキストコーパスからサポート情報を取得するためのTAGREALを提案する。
その結果、TAGREALは2つのベンチマークデータセット上で最先端のパフォーマンスを達成することがわかった。
TAGREALは、限られたトレーニングデータであっても、既存の埋め込みベース、グラフベース、およびPLMベースの手法よりも優れた性能を有することが判明した。
論文 参考訳(メタデータ) (2023-05-24T22:09:35Z) - PINA: Leveraging Side Information in eXtreme Multi-label Classification
via Predicted Instance Neighborhood Aggregation [105.52660004082766]
eXtreme Multi-label Classification(XMC)問題は、非常に大きなラベル空間から関連するラベルを見つけることを目指している。
一般XMC問題に対するデータ強化手法であるPINA(Predicted Instance Neighborhood Aggregation)を提案する。
ラベルと入力インスタンスを機能のないインジケータと独立したエントリとして扱う既存のほとんどのXMCフレームワークとは異なり、PINAはラベルメタデータとトレーニングインスタンス間の相関関係から情報を抽出する。
論文 参考訳(メタデータ) (2023-05-21T05:00:40Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z) - CheXbert: Combining Automatic Labelers and Expert Annotations for
Accurate Radiology Report Labeling Using BERT [6.458158112222296]
医用画像レポートラベリングにおけるBERTに基づくアプローチを提案する。
本稿では,ルールベースラベルのアノテーションに基づいてトレーニングしたBERTモデルの優れた性能を示す。
我々の最終モデルであるCheXbertは、統計的に有意な、以前の最高のルールベースのラベルよりも優れていることが分かりました。
論文 参考訳(メタデータ) (2020-04-20T09:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。