論文の概要: Enhancing chest X-ray datasets with privacy-preserving large language
models and multi-type annotations: a data-driven approach for improved
classification
- arxiv url: http://arxiv.org/abs/2403.04024v1
- Date: Wed, 6 Mar 2024 20:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:07:30.225186
- Title: Enhancing chest X-ray datasets with privacy-preserving large language
models and multi-type annotations: a data-driven approach for improved
classification
- Title(参考訳): プライバシー保護型大規模言語モデルと多型アノテーションによる胸部X線データセットの強化--分類改善のためのデータ駆動アプローチ
- Authors: Ricardo Bigolin Lanfredi, Pritam Mukherjee, Ronald Summers
- Abstract要約: 胸部X線(CXR)画像解析では、通常、ルールベースのシステムはレポートからラベルを抽出するために使用される。
我々は,局所的に実行可能なLarge Language Model(LLM)を利用して,CXRレポートの発見ラベルを抽出し,拡張する新しいアプローチであるMAPLEZを提案する。
- 参考スコア(独自算出の注目度): 0.6906005491572398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In chest X-ray (CXR) image analysis, rule-based systems are usually employed
to extract labels from reports, but concerns exist about label quality. These
datasets typically offer only presence labels, sometimes with binary
uncertainty indicators, which limits their usefulness. In this work, we present
MAPLEZ (Medical report Annotations with Privacy-preserving Large language model
using Expeditious Zero shot answers), a novel approach leveraging a locally
executable Large Language Model (LLM) to extract and enhance findings labels on
CXR reports. MAPLEZ extracts not only binary labels indicating the presence or
absence of a finding but also the location, severity, and radiologists'
uncertainty about the finding. Over eight abnormalities from five test sets, we
show that our method can extract these annotations with an increase of 5
percentage points (pp) in F1 score for categorical presence annotations and
more than 30 pp increase in F1 score for the location annotations over
competing labelers. Additionally, using these improved annotations in
classification supervision, we demonstrate substantial advancements in model
quality, with an increase of 1.7 pp in AUROC over models trained with
annotations from the state-of-the-art approach. We share code and annotations.
- Abstract(参考訳): 胸部x線(cxr)画像解析では、通常、規則に基づくシステムはレポートからラベルを抽出するために用いられるが、ラベルの品質に関する懸念がある。
これらのデータセットは、通常、存在ラベルのみを提供し、時にはバイナリ不確実性指標を持ち、有用性を制限する。
本研究では,局所的に実行可能なLarge Language Model (LLM) を利用して,CXRレポートの発見ラベルを抽出し,拡張する手法であるMAPLEZ(Medical Report Annotations with Privacy-serving Large Language Model using Expeditious Zero shot answer)を提案する。
MAPLEZは、発見の有無を示すバイナリラベルだけでなく、発見に関する場所、重症度、放射線学者の不確実性も抽出する。
提案手法は,5つのテストセットから8点以上の異常を抽出し,F1の5ポイント (pp) をカテゴリー的存在アノテーションに用い,F1の30pp以上を競合ラベルに用い,これらのアノテーションを抽出できることを示す。
さらに,これらの改良されたアノテーションを分類管理に使用することにより,最先端のアプローチでアノテーションをトレーニングしたモデルに対して,aurocの1.7ppの増加によって,モデル品質が大幅に向上することを示す。
コードとアノテーションを共有しています。
関連論文リスト
- Learning label-label correlations in Extreme Multi-label Classification via Label Features [44.00852282861121]
Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:18:43Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Automated Labeling of German Chest X-Ray Radiology Reports using Deep
Learning [50.591267188664666]
本稿では,ルールベースのドイツ語CheXpertモデルによってラベル付けされたレポートに基づいて,ディープラーニングに基づくCheXpertラベル予測モデルを提案する。
その結果,3つのタスクすべてにおいて,ルールベースモデルを大幅に上回ったアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-06-09T16:08:35Z) - German CheXpert Chest X-ray Radiology Report Labeler [50.591267188664666]
本研究の目的は,胸部X線分類モデルのアノテーションを自動的に抽出するアルゴリズムを開発することである。
その結果、自動ラベル抽出は手動ラベリングに費やす時間を短縮し、全体のモデリング性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-05T11:01:58Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Probabilistic Integration of Object Level Annotations in Chest X-ray
Classification [37.99281019411076]
胸部X線画像における疾患分類のための新しい確率潜在変数モデルを提案する。
グローバルデータセット機能は、モデルの下位層で学習される。
詳細な専門的なオブジェクトレベルのアノテーションの具体的な詳細とニュアンスは、最終レイヤで学習されます。
論文 参考訳(メタデータ) (2022-10-13T12:53:42Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Rethinking Pseudo Labels for Semi-Supervised Object Detection [84.697097472401]
物体検出に適した確実な擬似ラベルを導入する。
我々は,クラス不均衡問題を緩和するために,各カテゴリの擬似ラベルと再重み付き損失関数を生成するために使用する閾値を動的に調整する。
提案手法では,COCOのラベル付きデータのみを用いて,教師付きベースラインを最大10%改善する。
論文 参考訳(メタデータ) (2021-06-01T01:32:03Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Learning Image Labels On-the-fly for Training Robust Classification
Models [13.669654965671604]
ノイズの多いアノテーション(例えば、異なるアルゴリズムベースのラベル付け子から)を一緒に利用し、相互に分類タスクの学習に役立てることができるかを示す。
メタトレーニングベースのラベルサンプリングモジュールは、追加のバックプロパゲーションプロセスを通じてモデル学習の恩恵を受けるラベルに出席するように設計されている。
論文 参考訳(メタデータ) (2020-09-22T05:38:44Z) - CheXbert: Combining Automatic Labelers and Expert Annotations for
Accurate Radiology Report Labeling Using BERT [6.458158112222296]
医用画像レポートラベリングにおけるBERTに基づくアプローチを提案する。
本稿では,ルールベースラベルのアノテーションに基づいてトレーニングしたBERTモデルの優れた性能を示す。
我々の最終モデルであるCheXbertは、統計的に有意な、以前の最高のルールベースのラベルよりも優れていることが分かりました。
論文 参考訳(メタデータ) (2020-04-20T09:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。