論文の概要: Enriching Consumer Health Vocabulary Using Enhanced GloVe Word Embedding
- arxiv url: http://arxiv.org/abs/2004.00150v2
- Date: Mon, 13 Apr 2020 18:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 23:54:13.384143
- Title: Enriching Consumer Health Vocabulary Using Enhanced GloVe Word Embedding
- Title(参考訳): 強化GloVeワード埋め込みによる消費者健康語彙の充実
- Authors: Mohammed Ibrahim, Susan Gauch, Omar Salman, Mohammed Alqahatani
- Abstract要約: Open-Access and Collaborative Consumer Health Vocabulary (OAC CHV)は、英語で書かれた医学用語の集合体である。
国立医学図書館は、CHV用語をUMLS(Unified Medical Language System)に統合し、マッピングした。
本稿では,消費者生成テキストから新たなCHV語を生成する拡張単語埋め込み手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Access and Collaborative Consumer Health Vocabulary (OAC CHV, or CHV for
short), is a collection of medical terms written in plain English. It provides
a list of simple, easy, and clear terms that laymen prefer to use rather than
an equivalent professional medical term. The National Library of Medicine (NLM)
has integrated and mapped the CHV terms to their Unified Medical Language
System (UMLS). These CHV terms mapped to 56000 professional concepts on the
UMLS. We found that about 48% of these laymen's terms are still jargon and
matched with the professional terms on the UMLS. In this paper, we present an
enhanced word embedding technique that generates new CHV terms from a
consumer-generated text. We downloaded our corpus from a healthcare social
media and evaluated our new method based on iterative feedback to word
embedding using ground truth built from the existing CHV terms. Our feedback
algorithm outperformed unmodified GLoVe and new CHV terms have been detected.
- Abstract(参考訳): Open-Access and Collaborative Consumer Health Vocabulary (OAC CHV、略してCHV)は、平易な英語で書かれた医学用語の集合体である。
これは、平民が同等の専門的な医療用語よりもむしろ好む単純で簡単で明確な用語のリストを提供する。
国立医学図書館(NLM)は、CHV用語をUMLS(Unified Medical Language System)に統合し、マッピングしている。
これらのCHV用語はUMLS上の56000のプロフェッショナルな概念にマッピングされた。
これらのレイメンの用語の約48%は、まだジャーゴンであり、UMLSの専門用語と一致していることがわかった。
本稿では,消費者生成テキストから新たなCHV語を生成する拡張単語埋め込み手法を提案する。
我々は,医療ソーシャルメディアからコーパスをダウンロードし,既存のCHV用語から構築した真理を用いて,反復的なフィードバックから単語埋め込みまでの新しい手法を評価した。
フィードバックアルゴリズムは未修正GLoVeよりも優れており,新しいCHV項が検出されている。
関連論文リスト
- WatME: Towards Lossless Watermarking Through Lexical Redundancy [61.55924872561569]
相互排他型透かし(WatME)という新しいアプローチを導入する。
WatMEは、言語モデルの復号過程において利用可能な語彙の使用を動的に最適化する。
本稿では,WatMEが大規模言語モデルのテキスト生成能力を大幅に維持していることを示す理論的解析と実証的証拠を示す。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training
Regime and Better Alignment to Human Preferences [55.42521181558716]
中国医学領域向けに設計された新しいベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、コンテキスト長を4,096トークンに拡大し、事前トレーニング、SFT、RLHFを含む総合的なトレーニング体制を実行している。
情報抽出,質問応答,対話生成などの実世界のタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - MedJEx: A Medical Jargon Extraction Model with Wiki's Hyperlink Span and
Contextualized Masked Language Model Score [6.208127495081593]
我々は18K+EHR注記文から専門家が注釈付けした医療用語を用いた,新規かつ公開なデータセットを提示する。
次に,既存のNLPモデルよりも優れた医療ジャーゴン抽出(MedJEx$)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-12T02:27:32Z) - Constructing Cross-lingual Consumer Health Vocabulary with
Word-Embedding from Comparable User Generated Content [3.7539743709737974]
本研究の目的は、英語OAC CHVを言語横断言語に拡張するための言語間自動用語認識フレームワークを提案することである。
2つの単言語単語ベクトル空間をスキップグラムアルゴリズムを用いて決定し、各空間が言語内の在来人からの共通単語関連を符号化する。
アイソメトリの仮定に基づいて、2つの単言語空間をバイリンガルワードベクトル空間に整列し、コサイン類似性を言語間で意味論的に類似した単語を識別するための計量として用いる。
論文 参考訳(メタデータ) (2022-06-23T10:46:39Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - An Automated Method to Enrich Consumer Health Vocabularies Using GloVe
Word Embeddings and An Auxiliary Lexical Resource [0.0]
平民は、ドメインに共通する専門用語を理解できないため、専門家とのコミュニケーションが困難になる可能性がある。
いくつかの専門用語は、平凡な医学用語を専門的な医学用語にマッピングするために作られており、その逆も同様である。
本稿では,どのドメインの語彙にも適用可能な,平民の語彙を豊かにするための自動手法を提案する。
論文 参考訳(メタデータ) (2021-05-18T20:16:45Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - Can Embeddings Adequately Represent Medical Terminology? New Large-Scale
Medical Term Similarity Datasets Have the Answer! [13.885093944392464]
医療データに基づいて訓練された埋め込みが多数出現しているが、医療用語がどの程度うまく表現されているかは定かではない。
大規模医療用語類似度データセットを複数作成する。
我々は,複数のベクトル類似度指標と単語ベクトル集約技術を比較し,新しいデータセット上での最先端の単語と文脈の埋め込みを評価した。
論文 参考訳(メタデータ) (2020-03-24T19:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。