論文の概要: Developing an efficient corpus using Ensemble Data cleaning approach
- arxiv url: http://arxiv.org/abs/2406.00789v1
- Date: Sun, 2 Jun 2024 16:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:26:39.115767
- Title: Developing an efficient corpus using Ensemble Data cleaning approach
- Title(参考訳): Ensembleデータクリーニング手法を用いた効率的なコーパスの開発
- Authors: Md Taimur Ahad,
- Abstract要約: 本研究の目的は、アンサンブル技術を用いて医療データセットをクリーン化し、コーパスを開発することである。
本研究におけるデータクリーニング手法は,アンサンブル法が単一プロセスと比較して高い精度(94%)を提供することを示している。
医療分野におけるNLPの重要性を浮き彫りにしており、正確でタイムリーな情報抽出が命と死の問題となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the observable benefit of Natural Language Processing (NLP) in processing a large amount of textual medical data within a limited time for information retrieval, a handful of research efforts have been devoted to uncovering novel data-cleaning methods. Data cleaning in NLP is at the centre point for extracting validated information. Another observed limitation in the NLP domain is having limited medical corpora that provide answers to a given medical question. Realising the limitations and challenges from two perspectives, this research aims to clean a medical dataset using ensemble techniques and to develop a corpus. The corpora expect that it will answer the question based on the semantic relationship of corpus sequences. However, the data cleaning method in this research suggests that the ensemble technique provides the highest accuracy (94%) compared to the single process, which includes vectorisation, exploratory data analysis, and feeding the vectorised data. The second aim of having an adequate corpus was realised by extracting answers from the dataset. This research is significant in machine learning, specifically data cleaning and the medical sector, but it also underscores the importance of NLP in the medical field, where accurate and timely information extraction can be a matter of life and death. It establishes text data processing using NLP as a powerful tool for extracting valuable information like image data.
- Abstract(参考訳): 自然言語処理(NLP)が情報検索に限られた時間で大量のテキスト医療データを処理しているにもかかわらず、新しいデータクリーニング手法の解明にいくつかの研究努力が注がれている。
NLPのデータクリーニングは、検証された情報を抽出する中心点である。
NLPドメインのもう1つの観察された制限は、与えられた医学的問題に対する回答を提供する限られた医療コーパスを持つことである。
本研究は,2つの視点から限界と課題を把握し,アンサンブル技術を用いて医療データセットをクリーン化し,コーパスを開発することを目的とする。
コーパスは、コーパスシーケンスのセマンティックな関係に基づいて、その質問に答えることを期待している。
しかし,本研究におけるデータクリーニング手法は,ベクトル化,探索データ解析,ベクトル化データの供給を含む単一プロセスと比較して,最も精度が高い(94%)ことを示唆している。
適切なコーパスを持つための第2の目的は、データセットから回答を抽出することで実現された。
この研究は、機械学習、特にデータのクリーニングと医療分野において重要であるが、医療分野におけるNLPの重要性も強調している。
画像データなどの貴重な情報を抽出する強力なツールとして,NLPを用いたテキストデータ処理を確立する。
関連論文リスト
- A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - LLMs Accelerate Annotation for Medical Information Extraction [7.743388571513413]
本稿では,LLM(Large Language Models)と人間の専門知識を組み合わせた手法を提案する。
医療情報抽出タスクにおいて,我々の手法を厳格に評価し,我々のアプローチが人的介入を大幅に削減するだけでなく,高い精度を維持していることを示す。
論文 参考訳(メタデータ) (2023-12-04T19:26:13Z) - Into the Single Cell Multiverse: an End-to-End Dataset for Procedural
Knowledge Extraction in Biomedical Texts [2.2578044590557553]
FlaMB'eは、バイオメディカルテキストの手続き的知識をキャプチャする専門家によるデータセットのコレクションである。
このデータセットは、非構造化テキストとして記述される手続き的知識のユビキタスソースが、その方法論を記述する学術論文の中にあるという観察にインスパイアされている。
論文 参考訳(メタデータ) (2023-09-04T21:02:36Z) - Advancing Italian Biomedical Information Extraction with
Transformers-based Models: Methodological Insights and Multicenter Practical
Application [0.27027468002793437]
インフォメーション抽出は、自動化されたテキストマイニングパイプラインを使用することで、臨床実践者が限界を克服するのに役立つ。
我々は、最初のイタリアの神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し、それをトランスフォーマーベースのモデルの開発に利用した。
i)一貫性のあるアノテーションプロセスの重要な役割と(ii)古典的なメソッドと“低リソース”なアプローチを組み合わせた微調整戦略です。
論文 参考訳(メタデータ) (2023-06-08T16:15:46Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Semi-self-supervised Automated ICD Coding [2.449909275410288]
臨床用テキストノート (CTN) には、医師が患者を診察しインタビューする際に、構造化されていない自由テキスト形式で書かれた推論プロセスが含まれている。
本稿では,アイスランドのCTNの希少な注釈付きデータセットを,機械学習型計算で半自己管理的に拡張する方法を提案する。
我々は、注釈付きCTNの小さなセットでニューラルネットワークをトレーニングし、アノテーションなしCTNのセットから臨床特徴を抽出する。
論文 参考訳(メタデータ) (2022-05-20T11:12:54Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - Active learning for medical code assignment [55.99831806138029]
臨床領域における多ラベルテキスト分類におけるアクティブラーニング(AL)の有効性を示す。
MIMIC-IIIデータセットにICD-9コードを自動的に割り当てるために、よく知られたALメソッドのセットを適用します。
その結果、有益なインスタンスの選択は、大幅に減少したトレーニングセットで満足のいく分類を提供する。
論文 参考訳(メタデータ) (2021-04-12T18:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。