論文の概要: MedJEx: A Medical Jargon Extraction Model with Wiki's Hyperlink Span and
Contextualized Masked Language Model Score
- arxiv url: http://arxiv.org/abs/2210.05875v1
- Date: Wed, 12 Oct 2022 02:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:03:11.121747
- Title: MedJEx: A Medical Jargon Extraction Model with Wiki's Hyperlink Span and
Contextualized Masked Language Model Score
- Title(参考訳): MedJEx:Wikiのハイパーリンクスパンと文脈化マスケッド言語スコアを用いた医療用ジャーゴン抽出モデル
- Authors: Sunjae Kwon, Zonghai Yao, Harmon S. Jordan, David A. Levy, Brian
Corner, Hong Yu
- Abstract要約: 我々は18K+EHR注記文から専門家が注釈付けした医療用語を用いた,新規かつ公開なデータセットを提示する。
次に,既存のNLPモデルよりも優れた医療ジャーゴン抽出(MedJEx$)モデルを提案する。
- 参考スコア(独自算出の注目度): 6.208127495081593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a new natural language processing (NLP) application for
identifying medical jargon terms potentially difficult for patients to
comprehend from electronic health record (EHR) notes. We first present a novel
and publicly available dataset with expert-annotated medical jargon terms from
18K+ EHR note sentences ($MedJ$). Then, we introduce a novel medical jargon
extraction ($MedJEx$) model which has been shown to outperform existing
state-of-the-art NLP models. First, MedJEx improved the overall performance
when it was trained on an auxiliary Wikipedia hyperlink span dataset, where
hyperlink spans provide additional Wikipedia articles to explain the spans (or
terms), and then fine-tuned on the annotated MedJ data. Secondly, we found that
a contextualized masked language model score was beneficial for detecting
domain-specific unfamiliar jargon terms. Moreover, our results show that
training on the auxiliary Wikipedia hyperlink span datasets improved six out of
eight biomedical named entity recognition benchmark datasets. Both MedJ and
MedJEx are publicly available.
- Abstract(参考訳): 本稿では,電子健康記録(EHR)ノートから,患者が理解し難い医療用語を識別するための新しい自然言語処理(NLP)アプリケーションを提案する。
最初に18k以上のノート文(medj$)から専門家が注釈付き医療用語を使った、新規で公開可能なデータセットを提示した。
そこで本研究では,既存のNLPモデルよりも優れた医療ジャーゴン抽出(MedJEx$)モデルを提案する。
まずmedjexは、補助的なwikipediaハイパーリンクスパンデータセットでトレーニングされた時の全体的なパフォーマンスを改善し、ハイパーリンクスパンがスパン(あるいは用語)を説明するためにwikipediaの記事を追加し、注釈付きmedjデータに微調整した。
第2に,文脈化されたマスキング言語モデルスコアは,ドメイン固有の不慣れな用語を検出するのに有用であることがわかった。
さらに,wikipediaハイパーリンクスパンデータセットのトレーニングにより,生体医学的名前付きエンティティ認識ベンチマークデータセット8点中6点が改善された。
MedJとMedJExはどちらも公開されている。
関連論文リスト
- MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations [23.437292621092823]
本研究は,医学史研究のための英語における医師と患者との対話のデータセットであるMedictoDを紹介する。
医療領域に合わせたアンケートに基づくラベリング手法を考案する。
そして、医療専門家は高品質の包括的なアノテーションでデータセットを作成する。
論文 参考訳(メタデータ) (2024-10-18T06:38:22Z) - GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models [1.123722364748134]
本稿では,Large Language Models(LLMs)を利用した名前付きエンティティ認識(NER)アプローチであるGAMedXを紹介する。
この方法論は、NERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖プロンプトとピダンティックスキーマを構造化出力に利用している。
その結果, 評価データセットの1つに対して, 98%の精度でROUGE F1の有意なスコアが得られた。
論文 参考訳(メタデータ) (2024-05-31T02:53:22Z) - MedReadMe: A Systematic Study for Fine-grained Sentence Readability in Medical Domain [9.91205505704257]
本稿では,医療領域における文章レベルとスパンレベルの両方における可読性測定の体系的研究について述べる。
我々は、手動で注釈付けされた可読性評価と4,520文の詳細な複合スパンアノテーションからなる新しいデータセットMedReadMeを導入する。
既存の可読性式に1つの特徴を加えることで、人間の判断との相関を著しく改善できることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:48:20Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:53Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - COMETA: A Corpus for Medical Entity Linking in the Social Media [27.13349965075764]
われわれは、Redditの専門家がSNOMED CTへのリンクを付加した20万の英語バイオメディカルエンティティからなるCOMETAという新しいコーパスを紹介した。
私たちのコーパスは、スケールとカバレッジから多様性と品質まで、望ましい特性の組み合わせを満足しています。
2つの挑戦的な評価シナリオの下で、エンティティや概念に関する複雑な推論を行うことのできる、これらのシステムの能力に光を当てた。
論文 参考訳(メタデータ) (2020-10-07T09:16:45Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。