論文の概要: MeDAL: Medical Abbreviation Disambiguation Dataset for Natural Language
Understanding Pretraining
- arxiv url: http://arxiv.org/abs/2012.13978v1
- Date: Sun, 27 Dec 2020 17:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 21:02:40.415280
- Title: MeDAL: Medical Abbreviation Disambiguation Dataset for Natural Language
Understanding Pretraining
- Title(参考訳): MeDAL: 自然言語理解のための医学的省略曖昧化データセット
- Authors: Zhi Wen, Xing Han Lu, Siva Reddy
- Abstract要約: 略語用大容量医療用テキストデータセットであるMeDALについて述べる。
このデータセット上で共通アーキテクチャのモデルをいくつか事前トレーニングし,その事前トレーニングが下流医療タスクの微調整時のパフォーマンス向上と収束速度の向上につながることを実証的に示した。
- 参考スコア(独自算出の注目度): 5.807159674193696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the biggest challenges that prohibit the use of many current NLP
methods in clinical settings is the availability of public datasets. In this
work, we present MeDAL, a large medical text dataset curated for abbreviation
disambiguation, designed for natural language understanding pre-training in the
medical domain. We pre-trained several models of common architectures on this
dataset and empirically showed that such pre-training leads to improved
performance and convergence speed when fine-tuning on downstream medical tasks.
- Abstract(参考訳): 臨床環境での多くのNLPメソッドの使用を禁止する最大の課題の1つは、パブリックデータセットの可用性である。
本稿では,医学領域における事前学習の自然言語理解を目的とした,略語曖昧化のための大規模医療用テキストデータセットMeDALを提案する。
このデータセット上で共通アーキテクチャのモデルをいくつか事前トレーニングし,その事前トレーニングが下流医療タスクの微調整時のパフォーマンス向上と収束速度の向上につながることを実証的に示した。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - LLMs Accelerate Annotation for Medical Information Extraction [7.743388571513413]
本稿では,LLM(Large Language Models)と人間の専門知識を組み合わせた手法を提案する。
医療情報抽出タスクにおいて,我々の手法を厳格に評価し,我々のアプローチが人的介入を大幅に削減するだけでなく,高い精度を維持していることを示す。
論文 参考訳(メタデータ) (2023-12-04T19:26:13Z) - Advancing Italian Biomedical Information Extraction with
Transformers-based Models: Methodological Insights and Multicenter Practical
Application [0.27027468002793437]
インフォメーション抽出は、自動化されたテキストマイニングパイプラインを使用することで、臨床実践者が限界を克服するのに役立つ。
我々は、最初のイタリアの神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し、それをトランスフォーマーベースのモデルの開発に利用した。
i)一貫性のあるアノテーションプロセスの重要な役割と(ii)古典的なメソッドと“低リソース”なアプローチを組み合わせた微調整戦略です。
論文 参考訳(メタデータ) (2023-06-08T16:15:46Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Self-Supervised Graph Learning with Hyperbolic Embedding for Temporal
Health Event Prediction [13.24834156675212]
本稿では,情報フローを組み込んだハイパーボリック埋め込み手法を提案する。
我々は、これらの事前学習された表現をグラフニューラルネットワークに組み込んで、疾患の合併症を検出する。
本稿では,EHRデータを完全に活用する自己教師付き学習フレームワークに,階層型で強化された履歴予測代行タスクを提案する。
論文 参考訳(メタデータ) (2021-06-09T00:42:44Z) - Multilingual Medical Question Answering and Information Retrieval for
Rural Health Intelligence Access [1.0499611180329804]
いくつかの発展途上国の農村部では、高品質な医療、医療インフラ、専門的診断へのアクセスはほとんど利用できない。
このような医療アクセスの欠如、患者の以前の健康記録の欠如、および先住民語での情報の置換によるいくつかの死を、容易に防ぐことができる。
本稿では,機械学習とNLP(Natural Language Processing)技術における現象の進展を利用して,低リソース・多言語・予備的ファーストポイント・オブ・コンタクト・メディカルアシスタントを設計するアプローチについて述べる。
論文 参考訳(メタデータ) (2021-06-02T16:05:24Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。