論文の概要: MedDistant19: A Challenging Benchmark for Distantly Supervised
Biomedical Relation Extraction
- arxiv url: http://arxiv.org/abs/2204.04779v1
- Date: Sun, 10 Apr 2022 22:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 14:33:33.699064
- Title: MedDistant19: A Challenging Benchmark for Distantly Supervised
Biomedical Relation Extraction
- Title(参考訳): MedDistant19: 遠隔監視バイオメディカル関係抽出のためのベンチマーク
- Authors: Saadullah Amin, Pasquale Minervini, David Chang, G\"unter Neumann,
Pontus Stenetorp
- Abstract要約: 遠隔監視は、注釈付きデータの不足に対処するために一般的に使用される。
バイオDSREモデルは、いくつかのベンチマークで非常に正確な結果が得られるように見える。
しかし,タスクの難易度を考慮し,このような印象的な結果の有効性について検討した。
- 参考スコア(独自算出の注目度): 19.046156065686308
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Relation Extraction in the biomedical domain is challenging due to the lack
of labeled data and high annotation costs, needing domain experts. Distant
supervision is commonly used as a way to tackle the scarcity of annotated data
by automatically pairing knowledge graph relationships with raw texts.
Distantly Supervised Biomedical Relation Extraction (Bio-DSRE) models can
seemingly produce very accurate results in several benchmarks. However, given
the challenging nature of the task, we set out to investigate the validity of
such impressive results. We probed the datasets used by Amin et al. (2020) and
Hogan et al. (2021) and found a significant overlap between training and
evaluation relationships that, once resolved, reduced the accuracy of the
models by up to 71%. Furthermore, we noticed several inconsistencies with the
data construction process, such as creating negative samples and improper
handling of redundant relationships. We mitigate these issues and present
MedDistant19, a new benchmark dataset obtained by aligning the MEDLINE
abstracts with the widely used SNOMED Clinical Terms (SNOMED CT) knowledge
base. We experimented with several state-of-the-art models achieving an AUC of
55.4% and 49.8% at sentence- and bag-level, showing that there is still plenty
of room for improvement.
- Abstract(参考訳): バイオメディカル領域における関係抽出は、ラベル付きデータの欠如と高いアノテーションコストのため、ドメインの専門家を必要とするため困難である。
遠隔監視は、知識グラフと生テキストを自動でペアリングすることで、注釈付きデータの不足に対処する方法として一般的に用いられる。
Distantly Supervised Biomedical Relation extract (Bio-DSRE)モデルは、いくつかのベンチマークで非常に正確な結果が得られるように見える。
しかし,タスクの難易度を考慮し,このような印象的な結果の有効性について検討した。
amin et al. (2020) と hogan et al. (2021) が使用したデータセットを調査し, トレーニングと評価の関係は, 一度解決すれば, モデルの精度を最大71%低下させた。
さらに,負のサンプル作成や冗長な関係の不適切な処理など,データ構築プロセスにいくつかの矛盾があることに気付いた。
meddistant19はメドラインの抽象概念を広く使われているsnomed clinical terms (snomed ct) 知識ベースと整合させることで得られた新しいベンチマークデータセットである。
我々は, AUCを55.4%, 49.8%の文・バッグレベルで達成する最先端モデルをいくつか実験し, 改善の余地がまだたくさんあることを示した。
関連論文リスト
- Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。
私たちのゴールは自閉症の基準に対応する行動のラベル付けです。
データの増大はリコールを13%増加させたが、精度は16%低下した。
論文 参考訳(メタデータ) (2024-05-08T03:18:12Z) - Detecting and clustering swallow events in esophageal long-term high-resolution manometry [48.688209040613216]
深達度学習に基づく飲み込み検出法を提案し, 二次性非解離性食道運動障害を正確に同定する。
われわれは,25 LTHRMで計算パイプラインを評価し,医療専門家の注意を喚起した。
論文 参考訳(メタデータ) (2024-05-02T09:41:31Z) - Leveraging Unlabelled Data in Multiple-Instance Learning Problems for
Improved Detection of Parkinsonian Tremor in Free-Living Conditions [80.88681952022479]
本稿では,半教師付き学習とマルチスタンス学習を組み合わせた新しい手法を提案する。
本研究は,454被験者の非競合データを活用することにより,物体ごとの震動検出において大きな性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2023-04-29T12:25:10Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Pain level and pain-related behaviour classification using GRU-based
sparsely-connected RNNs [61.080598804629375]
慢性的な痛みを持つ人は、特定の身体の動きを無意識に適応させ、怪我や追加の痛みから身を守る。
この相関関係を分析するための専用のベンチマークデータベースが存在しないため、日々の行動に影響を及ぼす可能性のある特定の状況の1つを検討した。
我々は、複数のオートエンコーダを組み込んだゲートリカレントユニット(GRU)と疎結合なリカレントニューラルネットワーク(s-RNN)のアンサンブルを提案した。
本手法は,痛みレベルと痛み関連行動の両方の分類において,最先端のアプローチよりも優れていることを示すいくつかの実験を行った。
論文 参考訳(メタデータ) (2022-12-20T12:56:28Z) - Adding more data does not always help: A study in medical conversation
summarization with PEGASUS [5.276054618115727]
PEGを用いた転帰学習医療会話要約におけるデータセットサイズの影響について検討した。
また,分類環境での成功を受けて,低データ体制における様々な反復的なラベル付け戦略の評価を行った。
我々の研究は、医療会話要約への分類における低データ体制技術の導入の成功と課題に光を当てている。
論文 参考訳(メタデータ) (2021-11-15T07:27:35Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - On the diminishing return of labeling clinical reports [2.1431637042179683]
医療用NLPモデルを少量のラベル付きデータで取得できることを示す。
胸部X線X線画像診断データのうち, 胸部X線画像診断におけるトレーニングデータサイズの影響を定量的に検討した。
論文 参考訳(メタデータ) (2020-10-27T19:51:04Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - An Extensive Study on Cross-Dataset Bias and Evaluation Metrics
Interpretation for Machine Learning applied to Gastrointestinal Tract
Abnormality Classification [2.985964157078619]
GI領域における疾患の自動解析は、コンピュータ科学や医学関連雑誌でホットな話題となっている。
クロスデータセットによる評価指標と機械学習モデルの明確な理解は、この分野の研究を新たな品質レベルに導くために不可欠である。
16種類のGIトラクタ条件を分類できる5つの異なる機械学習モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2020-05-08T08:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。