論文の概要: Semi-Supervised Learning from Small Annotated Data and Large Unlabeled Data for Fine-grained PICO Entity Recognition
- arxiv url: http://arxiv.org/abs/2412.19346v1
- Date: Thu, 26 Dec 2024 20:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:02.757376
- Title: Semi-Supervised Learning from Small Annotated Data and Large Unlabeled Data for Fine-grained PICO Entity Recognition
- Title(参考訳): 微粒PICOエンティティ認識のための小型アノテーションデータと大規模ラベルなしデータからの半教師付き学習
- Authors: Fangyi Chen, Gongbo Zhang, Yilu Fang, Yifan Peng, Chunhua Weng,
- Abstract要約: 既存のアプローチはPICOエンティティの属性を区別しない。
本研究の目的は,細粒度PICOエンティティを抽出する名前付きエンティティ認識モデルを開発することである。
- 参考スコア(独自算出の注目度): 17.791233666137092
- License:
- Abstract: Objective: Extracting PICO elements -- Participants, Intervention, Comparison, and Outcomes -- from clinical trial literature is essential for clinical evidence retrieval, appraisal, and synthesis. Existing approaches do not distinguish the attributes of PICO entities. This study aims to develop a named entity recognition (NER) model to extract PICO entities with fine granularities. Materials and Methods: Using a corpus of 2,511 abstracts with PICO mentions from 4 public datasets, we developed a semi-supervised method to facilitate the training of a NER model, FinePICO, by combining limited annotated data of PICO entities and abundant unlabeled data. For evaluation, we divided the entire dataset into two subsets: a smaller group with annotations and a larger group without annotations. We then established the theoretical lower and upper performance bounds based on the performance of supervised learning models trained solely on the small, annotated subset and on the entire set with complete annotations, respectively. Finally, we evaluated FinePICO on both the smaller annotated subset and the larger, initially unannotated subset. We measured the performance of FinePICO using precision, recall, and F1. Results: Our method achieved precision/recall/F1 of 0.567/0.636/0.60, respectively, using a small set of annotated samples, outperforming the baseline model (F1: 0.437) by more than 16\%. The model demonstrates generalizability to a different PICO framework and to another corpus, which consistently outperforms the benchmark in diverse experimental settings (p-value \textless0.001). Conclusion: This study contributes a generalizable and effective semi-supervised approach to named entity recognition leveraging large unlabeled data together with small, annotated data. It also initially supports fine-grained PICO extraction.
- Abstract(参考訳): 目的:臨床試験文献からPICO要素(参加者、介入、比較、結果)を抽出することは、臨床証拠の検索、評価、合成に不可欠である。
既存のアプローチはPICOエンティティの属性を区別しない。
本研究の目的は、PICOエンティティを微細な粒度で抽出する名前付きエンティティ認識(NER)モデルを開発することである。
資料と方法:4つの公開データセットから,2,511個の抽象データを用いたコーパスを用いて,PICOエンティティの注釈付きデータと豊富なラベルなしデータを組み合わせることにより,NERモデルのトレーニングを容易にする半教師付き手法であるFinePICOを開発した。
評価のために、データセット全体を2つのサブセットに分けました。
次に, 教師付き学習モデルの性能に基づいて, 小, 注釈付きサブセットと, 完全アノテーション付きセット全体に基づいて, 理論的な下層および上層性能境界を定式化した。
最後に,より小さいアノテートサブセットと大きい未アノテートサブセットの両方でFinePICOを評価した。
精度,リコール,F1を用いてFinePICOの性能を測定した。
結果: 本手法は, 注釈付きサンプルの小さなセットを用いてそれぞれ0.567/0.636/0.60の精度/リコール/F1を達成し, ベースラインモデル(F1: 0.437)を16\%以上上回った。
このモデルは異なるPICOフレームワークと別のコーパスへの一般化可能性を示し、様々な実験環境でベンチマークを一貫して上回っている(p-value \textless0.001)。
結論: 本研究は, 大規模未ラベルデータと小さな注釈付きデータを併用した名前付きエンティティ認識への, 汎用的で効果的な半教師付きアプローチに寄与する。
初めは細粒なPICO抽出もサポートしている。
関連論文リスト
- Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - A Span-based Model for Extracting Overlapping PICO Entities from RCT
Publications [24.67593934432951]
重なり合うPICOエンティティを抽出する新しいPICOX法を提案する。
単語がエンティティの開始か終了かを評価することによってエンティティを識別する。
次に、複数ラベルの分類器を使用して、1つ以上のPICOラベルをスパン候補に割り当てる。
論文 参考訳(メタデータ) (2024-01-08T03:35:02Z) - Relation Extraction in underexplored biomedical domains: A
diversity-optimised sampling and synthetic data generation approach [0.0]
ラベル付きデータの空間性は関係抽出モデルの開発に障害となる。
我々は、最初のキュレートされた評価データセットを作成し、LOTUSデータベースから文献項目を抽出し、トレーニングセットを構築する。
我々は,オープンな大規模言語モデルを用いた生成タスクと数ショット学習として,標準微調整の性能を評価する。
論文 参考訳(メタデータ) (2023-11-10T19:36:00Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - COSST: Multi-organ Segmentation with Partially Labeled Datasets Using
Comprehensive Supervisions and Self-training [15.639976408273784]
ディープラーニングモデルは、マルチ組織セグメンテーションにおいて顕著な成功を収めてきたが、典型的には、興味のあるすべての器官に注釈を付けた大規模なデータセットを必要とする。
利用可能な部分ラベル付きデータセットの統一モデルを学習して、そのシナジスティックなポテンシャルを活用する方法については、調査が不可欠である。
COSSTと呼ばれる新しい2段階のフレームワークを提案し、このフレームワークは包括的監視信号と自己学習を効果的に効率的に統合する。
論文 参考訳(メタデータ) (2023-04-27T08:55:34Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - CEREAL: Few-Sample Clustering Evaluation [4.569028973407756]
限られたラベルでクラスタリング品質を推定する未解決の問題に焦点をあてる。
本稿では,少数のクラスタリング評価のための総合的なフレームワークCEREALを紹介する。
その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T19:52:41Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。