論文の概要: Can Embeddings Adequately Represent Medical Terminology? New Large-Scale
Medical Term Similarity Datasets Have the Answer!
- arxiv url: http://arxiv.org/abs/2003.11082v1
- Date: Tue, 24 Mar 2020 19:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:06:22.443398
- Title: Can Embeddings Adequately Represent Medical Terminology? New Large-Scale
Medical Term Similarity Datasets Have the Answer!
- Title(参考訳): 埋め込みは医学用語を適切に表現できるか?
新しい大規模医療用語類似性データセットには答えがある!
- Authors: Claudia Schulz, Damir Juric
- Abstract要約: 医療データに基づいて訓練された埋め込みが多数出現しているが、医療用語がどの程度うまく表現されているかは定かではない。
大規模医療用語類似度データセットを複数作成する。
我々は,複数のベクトル類似度指標と単語ベクトル集約技術を比較し,新しいデータセット上での最先端の単語と文脈の埋め込みを評価した。
- 参考スコア(独自算出の注目度): 13.885093944392464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large number of embeddings trained on medical data have emerged, but it
remains unclear how well they represent medical terminology, in particular
whether the close relationship of semantically similar medical terms is encoded
in these embeddings. To date, only small datasets for testing medical term
similarity are available, not allowing to draw conclusions about the
generalisability of embeddings to the enormous amount of medical terms used by
doctors. We present multiple automatically created large-scale medical term
similarity datasets and confirm their high quality in an annotation study with
doctors. We evaluate state-of-the-art word and contextual embeddings on our new
datasets, comparing multiple vector similarity metrics and word vector
aggregation techniques. Our results show that current embeddings are limited in
their ability to adequately encode medical terms. The novel datasets thus form
a challenging new benchmark for the development of medical embeddings able to
accurately represent the whole medical terminology.
- Abstract(参考訳): 医学データに基づいて訓練された多くの埋め込みが出現しているが、それが医学用語をいかによく表しているか、特に、意味的に類似した医療用語の密接な関係がこれらの埋め込みにエンコードされているかは明らかでない。
現在、医療用語の類似性をテストするための小さなデータセットのみが利用可能であり、埋め込みの一般性に関する結論を医師が使用する膨大な量の医療用語に導き出すことができない。
医師との注記研究において,複数の医療用語類似度データセットを自動生成し,その品質を確認する。
最新の単語と文脈の埋め込みを新しいデータセットで評価し、複数のベクトル類似度メトリクスと単語ベクトル集約手法を比較した。
その結果,現在の埋め込みは医療用語を適切にエンコードする能力に限られていることがわかった。
この新しいデータセットは、医療用語全体を正確に表現できる医療埋め込みの開発のための挑戦的な新しいベンチマークを形成する。
関連論文リスト
- Semantic Textual Similarity Assessment in Chest X-ray Reports Using a
Domain-Specific Cosine-Based Metric [1.7802147489386628]
本稿では,生成医療報告と基礎的真実とのセマンティックな類似性を評価するための新しいアプローチを提案する。
本手法の有効性を検証し,医学的文脈におけるドメイン固有の意味的類似性を評価する。
論文 参考訳(メタデータ) (2024-02-19T07:48:25Z) - Leveraging knowledge graphs to update scientific word embeddings using
latent semantic imputation [0.0]
glslsiは、最新の知識グラフからドメイン固有の単語を埋め込むことができることを示す。
生物医学領域における希少項およびOOV項に対して,LSIは信頼性の高い埋め込みベクトルを生成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-27T12:15:26Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Unifying Relational Sentence Generation and Retrieval for Medical Image
Report Composition [142.42920413017163]
現在の手法は、個々のケースのデータセットバイアスにより、しばしば最も一般的な文を生成する。
テンプレート検索と文生成を一体化し、共通およびまれな異常に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T04:33:27Z) - CODER: Knowledge infused cross-lingual medical term embedding for term
normalization [7.516391006265378]
CODERは、異なる用語に対する近接ベクトル表現を提供することにより、医療用語の正規化のために設計されている。
我々は、医用知識グラフ(KG)で対照的な学習を通じて、統一医療言語システム(Unified Medical Language System)を訓練する。
我々はCODERをゼロショット項正規化、意味的類似性、関係分類ベンチマークで評価する。
論文 参考訳(メタデータ) (2020-11-05T16:16:49Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - Domain Generalization for Medical Imaging Classification with
Linear-Dependency Regularization [59.5104563755095]
本稿では,医用画像分類分野におけるディープニューラルネットワークの一般化能力向上のための,シンプルだが効果的なアプローチを提案する。
医用画像の領域変数がある程度コンパクトであることに感銘を受けて,変分符号化による代表的特徴空間の学習を提案する。
論文 参考訳(メタデータ) (2020-09-27T12:30:30Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Evaluating Sparse Interpretable Word Embeddings for Biomedical Domain [1.3526604206343171]
解釈可能性(英: Interpretability)は、生体医学的応用において不可欠な部分である正当化の鍵となる手段である。
医療領域における単語埋め込みの解釈可能性に関する包括的研究を行い,スパース法の役割に着目した。
実験結果から, 下流タスクにおける元のベクトルの性能を保ちながら, 疎単語ベクトルの方がはるかに解釈可能性が高いことがわかった。
論文 参考訳(メタデータ) (2020-05-11T13:56:58Z) - Seeing The Whole Patient: Using Multi-Label Medical Text Classification
Techniques to Enhance Predictions of Medical Codes [2.158285012874102]
18,50,155ラベルの多ラベル医療用テキスト分類問題について報告する。
不均衡なデータに対して、頻繁に発生するラベルは、埋め込みに組み込まれた追加機能から最も恩恵を受けることを示す。
この研究の高次元埋め込みは公共用途に利用可能である。
論文 参考訳(メタデータ) (2020-03-29T02:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。