論文の概要: Validation of a Zero-Shot Learning Natural Language Processing Tool for
Data Abstraction from Unstructured Healthcare Data
- arxiv url: http://arxiv.org/abs/2308.00107v1
- Date: Sun, 23 Jul 2023 17:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-06 11:12:55.106560
- Title: Validation of a Zero-Shot Learning Natural Language Processing Tool for
Data Abstraction from Unstructured Healthcare Data
- Title(参考訳): 非構造化医療データからのデータ抽象化のためのゼロショット学習自然言語処理ツールの検証
- Authors: Basil Kaufmann, Dallin Busby, Chandan Krushna Das, Neeraja Tillu, Mani
Menon, Ashutosh K. Tewari, Michael A. Gorin
- Abstract要約: OpenAI の GPT3.5 モデルに基づいてデータ抽象化ツールを開発した。
タスク完了までの時間とデータの抽象化の精度の点で、人間の3つの抽象体と比較した。
このツールは、データの抽象化速度と精度の非偽性に優れていると評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objectives: To describe the development and validation of a zero-shot
learning natural language processing (NLP) tool for abstracting data from
unstructured text contained within PDF documents, such as those found within
electronic health records. Materials and Methods: A data abstraction tool based
on the GPT-3.5 model from OpenAI was developed and compared to three physician
human abstractors in terms of time to task completion and accuracy for
abstracting data on 14 unique variables from a set of 199 de-identified radical
prostatectomy pathology reports. The reports were processed by the software
tool in vectorized and scanned formats to establish the impact of optical
character recognition on data abstraction. The tool was assessed for
superiority for data abstraction speed and non-inferiority for accuracy.
Results: The human abstractors required a mean of 101s per report for data
abstraction, with times varying from 15 to 284 s. In comparison, the software
tool required a mean of 12.8 s to process the vectorized reports and a mean of
15.8 to process the scanned reports (P < 0.001). The overall accuracies of the
three human abstractors were 94.7%, 97.8%, and 96.4% for the combined set of
2786 datapoints. The software tool had an overall accuracy of 94.2% for the
vectorized reports, proving to be non-inferior to the human abstractors at a
margin of -10% ($\alpha$=0.025). The tool had a slightly lower accuracy of
88.7% using the scanned reports, proving to be non-inferiority to 2 out of 3
human abstractors. Conclusion: The developed zero-shot learning NLP tool
affords researchers comparable levels of accuracy to that of human abstractors,
with significant time savings benefits. Because of the lack of need for
task-specific model training, the developed tool is highly generalizable and
can be used for a wide variety of data abstraction tasks, even outside the
field of medicine.
- Abstract(参考訳): 目的: 電子健康記録などのpdf文書に含まれる構造化されていないテキストからデータを抽象化するゼロショット学習自然言語処理(nlp)ツールの開発と検証を記述する。
材料と方法: openai の gpt-3.5 モデルに基づくデータ抽象化ツールを開発し、199 個の非同定根治的前立腺切除病理報告から 14 個の特異変数のデータ抽象化を行うための時間からタスク完了までの時間と正確性の観点から3 つの医師の人間抽象化ツールと比較した。
レポートは、ベクトル化およびスキャンされたフォーマットでソフトウェアツールによって処理され、データ抽象化に対する光学的文字認識の影響を確立する。
このツールは、データの抽象化速度と精度の非偽性に優れていると評価された。
結果: 人間の抽象化者は,データ抽象化に1レポートあたり平均101秒を必要とし,その時間は15~284秒であった。
比較として、ソフトウェアツールはベクトル化されたレポートを処理するのに平均12.8秒、スキャンされたレポートを処理する平均15.8秒を必要とした(p < 0.001)。
3つの抽象概念の全体としての精度は94.7%、97.8%、96.4%であった。
このソフトウェアツールは、ベクトル化されたレポートの全体的な精度は94.2%であり、人間の抽象論者に対して-10%(=0.025ドル)の差で非競合であることが証明された。
このツールの精度はスキャンされたレポートで88.7%とわずかに低く、人間の3つのうち2つに非偽性であることが判明した。
結論: 開発したゼロショット学習NLPツールは、研究者が人間の抽象体と同等の精度で、かなりの時間を節約できる。
タスク固有のモデルトレーニングの必要性がないため、開発されたツールは高度に一般化でき、医学の分野以外でも、さまざまなデータ抽象化タスクに使用できる。
関連論文リスト
- How Much Data is Enough? Optimization of Data Collection for Artifact Detection in EEG Recordings [35.65657694684476]
深層学習に基づくアーティファクト検出を用いたデータ指向データ収集設計のための最適化手法を提案する。
人工物タスクの数を12から3に減らし、等尺収縮タスクの繰り返しを10から3に減らし、時には1に減らした。
論文 参考訳(メタデータ) (2024-11-05T11:47:59Z) - Developing an efficient corpus using Ensemble Data cleaning approach [0.0]
本研究の目的は、アンサンブル技術を用いて医療データセットをクリーン化し、コーパスを開発することである。
本研究におけるデータクリーニング手法は,アンサンブル法が単一プロセスと比較して高い精度(94%)を提供することを示している。
医療分野におけるNLPの重要性を浮き彫りにしており、正確でタイムリーな情報抽出が命と死の問題となる。
論文 参考訳(メタデータ) (2024-06-02T16:03:31Z) - Investigating Deep-Learning NLP for Automating the Extraction of
Oncology Efficacy Endpoints from Scientific Literature [0.0]
我々は,論文中のテキストから有効終端を抽出するフレームワークを開発し,最適化した。
我々の機械学習モデルは、有効性エンドポイントに関連する25のクラスを予測し、高いF1スコアを得る。
論文 参考訳(メタデータ) (2023-11-03T14:01:54Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Optimising Human-Machine Collaboration for Efficient High-Precision
Information Extraction from Text Documents [23.278525774427607]
我々は、人間のみ、人間のみ、機械のみの情報抽出アプローチの利点と欠点を考察する。
弱スーパービジョンラベリングと人間の検証を用いた情報抽出のためのフレームワークとアタッチメントツールを提案する。
コンピュータの速度と人間の理解の組み合わせは、わずかな時間しか必要とせず、手動のアノテーションに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2023-02-18T13:07:22Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。