論文の概要: Probing Pre-Trained Language Models for Disease Knowledge
- arxiv url: http://arxiv.org/abs/2106.07285v1
- Date: Mon, 14 Jun 2021 10:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 01:34:01.026368
- Title: Probing Pre-Trained Language Models for Disease Knowledge
- Title(参考訳): 疾患知識のための事前学習言語モデルの提案
- Authors: Israa Alghanmi, Luis Espinosa-Anke, Steven Schockaert
- Abstract要約: 疾患知識評価のための新しいベンチマークであるDisKnEを紹介する。
トレーニングデータから、テスト疾患に関する知識を学べないよう、トレーニングとテストの分割を定義します。
提案したベンチマークを用いて,臨床・生体領域の事前学習モデルの解析を行うと,その性能は著しく低下することがわかった。
- 参考スコア(独自算出の注目度): 38.73378973397647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models such as ClinicalBERT have achieved impressive
results on tasks such as medical Natural Language Inference. At first glance,
this may suggest that these models are able to perform medical reasoning tasks,
such as mapping symptoms to diseases. However, we find that standard benchmarks
such as MedNLI contain relatively few examples that require such forms of
reasoning. To better understand the medical reasoning capabilities of existing
language models, in this paper we introduce DisKnE, a new benchmark for Disease
Knowledge Evaluation. To construct this benchmark, we annotated each positive
MedNLI example with the types of medical reasoning that are needed. We then
created negative examples by corrupting these positive examples in an
adversarial way. Furthermore, we define training-test splits per disease,
ensuring that no knowledge about test diseases can be learned from the training
data, and we canonicalize the formulation of the hypotheses to avoid the
presence of artefacts. This leads to a number of binary classification
problems, one for each type of reasoning and each disease. When analysing
pre-trained models for the clinical/biomedical domain on the proposed
benchmark, we find that their performance drops considerably.
- Abstract(参考訳): ClinicalBERTのような事前訓練された言語モデルは、医学的自然言語推論のようなタスクにおいて印象的な成果を上げている。
一見すると、これらのモデルが、症状を病気にマッピングするなど、医学的推論タスクを実行できることを示唆しているかもしれない。
しかし、MedNLIのような標準ベンチマークには、そのような推論を必要とする例が比較的少ないことが分かる。
本稿では,既存の言語モデルの医学的推論能力をよりよく理解するために,疾患知識評価のための新しいベンチマークであるDisKnEを紹介する。
このベンチマークを構築するために、我々は各正のMedNLIサンプルに、必要な医学的推論のタイプをアノテートした。
そして、これらの正の例を逆向きに不正にすることで、負の例を作成しました。
さらに,疾患毎のトレーニング・テスト分割を定義し,その訓練データから検査疾患に関する知識が得られないことを確認し,人工物の存在を避けるために仮説の定式化を正準化する。
これは多くの二分分類問題を引き起こし、1つは推論のタイプと疾患のタイプである。
提案するベンチマークで臨床・バイオメディカル領域の事前学習モデルを分析すると,その性能は大幅に低下することがわかった。
関連論文リスト
- SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Semantic Coherence Markers for the Early Diagnosis of the Alzheimer
Disease [0.0]
パープレキシティはもともと、与えられた言語モデルがテキストシーケンスを予測するのにどの程度適しているかを評価するための情報理論の尺度として考え出された。
我々は2グラムから5グラムまでのN-gramとトランスフォーマーベース言語モデルであるGPT-2を多種多様な言語モデルに適用した。
ベストパフォーマンスモデルでは、ADクラスと制御対象の両方から対象を分類する際に、完全精度とFスコア(精度/特異度とリコール/感度のそれぞれ1.00)を達成した。
論文 参考訳(メタデータ) (2023-02-02T11:40:16Z) - This Patient Looks Like That Patient: Prototypical Networks for
Interpretable Diagnosis Prediction from Clinical Text [56.32427751440426]
臨床実践においては、そのようなモデルは正確であるだけでなく、医師に解釈可能で有益な結果を与える必要がある。
本稿では,プロトタイプネットワークに基づく新しい手法であるProtoPatientを紹介する。
利用可能な2つの臨床データセット上でモデルを評価し、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-16T10:12:07Z) - Clinical Language Understanding Evaluation (CLUE) [17.254884920876695]
臨床言語理解評価(CLUE)ベンチマークを,MIMICデータから得られた4つの臨床言語理解タスク,標準トレーニング,開発,検証,テストセットを用いて提案する。
これらのデータにより、これらの臨床言語理解タスクの新しいモデルや方法の開発において、アプローチの直接比較、導入障壁の改善と削減が可能になることを願っています。
論文 参考訳(メタデータ) (2022-09-28T19:14:08Z) - Stress Test Evaluation of Biomedical Word Embeddings [3.8376078864105425]
逆例を用いた3つの言語モデルを体系的に評価する。
逆行訓練により、モデルが頑健さを向上し、場合によっては本来の性能を超越する結果が得られます。
論文 参考訳(メタデータ) (2021-07-24T16:45:03Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - On Adversarial Examples for Biomedical NLP Tasks [4.7677261488999205]
医療用NERとSTSのための2つのよく知られたデータセットに対する逆評価手法を提案する。
逆例を用いてモデルをトレーニングすることで,モデルの堅牢性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2020-04-23T13:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。