論文の概要: MedJEx: A Medical Jargon Extraction Model with Wiki's Hyperlink Span and
Contextualized Masked Language Model Score
- arxiv url: http://arxiv.org/abs/2210.05875v1
- Date: Wed, 12 Oct 2022 02:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:03:11.121747
- Title: MedJEx: A Medical Jargon Extraction Model with Wiki's Hyperlink Span and
Contextualized Masked Language Model Score
- Title(参考訳): MedJEx:Wikiのハイパーリンクスパンと文脈化マスケッド言語スコアを用いた医療用ジャーゴン抽出モデル
- Authors: Sunjae Kwon, Zonghai Yao, Harmon S. Jordan, David A. Levy, Brian
Corner, Hong Yu
- Abstract要約: 我々は18K+EHR注記文から専門家が注釈付けした医療用語を用いた,新規かつ公開なデータセットを提示する。
次に,既存のNLPモデルよりも優れた医療ジャーゴン抽出(MedJEx$)モデルを提案する。
- 参考スコア(独自算出の注目度): 6.208127495081593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a new natural language processing (NLP) application for
identifying medical jargon terms potentially difficult for patients to
comprehend from electronic health record (EHR) notes. We first present a novel
and publicly available dataset with expert-annotated medical jargon terms from
18K+ EHR note sentences ($MedJ$). Then, we introduce a novel medical jargon
extraction ($MedJEx$) model which has been shown to outperform existing
state-of-the-art NLP models. First, MedJEx improved the overall performance
when it was trained on an auxiliary Wikipedia hyperlink span dataset, where
hyperlink spans provide additional Wikipedia articles to explain the spans (or
terms), and then fine-tuned on the annotated MedJ data. Secondly, we found that
a contextualized masked language model score was beneficial for detecting
domain-specific unfamiliar jargon terms. Moreover, our results show that
training on the auxiliary Wikipedia hyperlink span datasets improved six out of
eight biomedical named entity recognition benchmark datasets. Both MedJ and
MedJEx are publicly available.
- Abstract(参考訳): 本稿では,電子健康記録(EHR)ノートから,患者が理解し難い医療用語を識別するための新しい自然言語処理(NLP)アプリケーションを提案する。
最初に18k以上のノート文(medj$)から専門家が注釈付き医療用語を使った、新規で公開可能なデータセットを提示した。
そこで本研究では,既存のNLPモデルよりも優れた医療ジャーゴン抽出(MedJEx$)モデルを提案する。
まずmedjexは、補助的なwikipediaハイパーリンクスパンデータセットでトレーニングされた時の全体的なパフォーマンスを改善し、ハイパーリンクスパンがスパン(あるいは用語)を説明するためにwikipediaの記事を追加し、注釈付きmedjデータに微調整した。
第2に,文脈化されたマスキング言語モデルスコアは,ドメイン固有の不慣れな用語を検出するのに有用であることがわかった。
さらに,wikipediaハイパーリンクスパンデータセットのトレーニングにより,生体医学的名前付きエンティティ認識ベンチマークデータセット8点中6点が改善された。
MedJとMedJExはどちらも公開されている。
関連論文リスト
- Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:53Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Word-level Text Highlighting of Medical Texts forTelehealth Services [0.0]
本研究の目的は,異なるテキストハイライト技術が関連する医療状況をどのように捉えることができるかを示すことである。
3つの異なる単語レベルのテキストハイライト手法を実装し評価する。
実験の結果、ニューラルネットワークアプローチは医療関連用語の強調に成功していることがわかった。
論文 参考訳(メタデータ) (2021-05-21T15:13:54Z) - An Automated Method to Enrich Consumer Health Vocabularies Using GloVe
Word Embeddings and An Auxiliary Lexical Resource [0.0]
平民は、ドメインに共通する専門用語を理解できないため、専門家とのコミュニケーションが困難になる可能性がある。
いくつかの専門用語は、平凡な医学用語を専門的な医学用語にマッピングするために作られており、その逆も同様である。
本稿では,どのドメインの語彙にも適用可能な,平民の語彙を豊かにするための自動手法を提案する。
論文 参考訳(メタデータ) (2021-05-18T20:16:45Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - COMETA: A Corpus for Medical Entity Linking in the Social Media [27.13349965075764]
われわれは、Redditの専門家がSNOMED CTへのリンクを付加した20万の英語バイオメディカルエンティティからなるCOMETAという新しいコーパスを紹介した。
私たちのコーパスは、スケールとカバレッジから多様性と品質まで、望ましい特性の組み合わせを満足しています。
2つの挑戦的な評価シナリオの下で、エンティティや概念に関する複雑な推論を行うことのできる、これらのシステムの能力に光を当てた。
論文 参考訳(メタデータ) (2020-10-07T09:16:45Z) - Improving Broad-Coverage Medical Entity Linking with Semantic Type
Prediction and Large-Scale Datasets [12.131050765159145]
MedTypeは完全にモジュール化されたシステムで、エンティティ参照の予測されたセマンティックタイプに基づいて、無関係な候補概念を抽出する。
我々は、データセットをリンクする大規模医療機関であるWikiMedとPubMedDSを紹介し、これらのデータセット上でMedTypeを事前学習することで、エンティティリンク性能がさらに向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T15:55:50Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。