論文の概要: TF-IDF vs Word Embeddings for Morbidity Identification in Clinical
Notes: An Initial Study
- arxiv url: http://arxiv.org/abs/2105.09632v1
- Date: Thu, 20 May 2021 09:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 18:10:07.364248
- Title: TF-IDF vs Word Embeddings for Morbidity Identification in Clinical
Notes: An Initial Study
- Title(参考訳): TF-IDF vs. Word Embeddings for Morbidity Identification in Clinical Notes: An Initial Study
- Authors: Danilo Dessi, Rim Helaoui, Vivek Kumar, Diego Reforgiato Recupero, and
Daniele Riboni
- Abstract要約: 臨床記録のテキスト記述において, 深層学習と単語埋め込みを用いて, 16種類の致死型を同定する手法を提案する。
我々は、GloVeとWord2Vecというトレーニング済みのWord Embeddingsと、ターゲットドメインでトレーニングされたWord Embeddingsを採用しました。
- 参考スコア(独自算出の注目度): 3.9424051088220518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today, we are seeing an ever-increasing number of clinical notes that contain
clinical results, images, and textual descriptions of patient's health state.
All these data can be analyzed and employed to cater novel services that can
help people and domain experts with their common healthcare tasks. However,
many technologies such as Deep Learning and tools like Word Embeddings have
started to be investigated only recently, and many challenges remain open when
it comes to healthcare domain applications. To address these challenges, we
propose the use of Deep Learning and Word Embeddings for identifying sixteen
morbidity types within textual descriptions of clinical records. For this
purpose, we have used a Deep Learning model based on Bidirectional Long-Short
Term Memory (LSTM) layers which can exploit state-of-the-art vector
representations of data such as Word Embeddings. We have employed pre-trained
Word Embeddings namely GloVe and Word2Vec, and our own Word Embeddings trained
on the target domain. Furthermore, we have compared the performances of the
deep learning approaches against the traditional tf-idf using Support Vector
Machine and Multilayer perceptron (our baselines). From the obtained results it
seems that the latter outperforms the combination of Deep Learning approaches
using any word embeddings. Our preliminary results indicate that there are
specific features that make the dataset biased in favour of traditional machine
learning approaches.
- Abstract(参考訳): 今日、臨床結果、画像、患者の健康状態のテキスト記述を含む臨床ノートがどんどん増えています。
これらのデータはすべて、人々やドメインの専門家が共通のヘルスケアタスクを手伝う新しいサービスとして分析され、利用することができる。
しかし、ディープラーニングや単語埋め込みといった多くの技術が最近になって調査され始めており、医療ドメインアプリケーションに関しても多くの課題が残されている。
これらの課題に対処するために,臨床記録のテキスト記述における16種類の致命的タイプを特定するために,Deep LearningとWord Embeddingsを提案する。
この目的のために、我々は、ワード埋め込みのようなデータの最先端ベクトル表現を活用できる双方向長短メモリ(LSTM)層に基づくディープラーニングモデルを用いた。
我々は、GloVeとWord2Vecというトレーニング済みのWord Embeddingsと、ターゲットドメインでトレーニングされたWord Embeddingsを採用しました。
さらに,サポートベクターマシンと多層パーセプトロン(ベースライン)を用いて,従来のtf-idfと比較した。
得られた結果から,後者は単語埋め込みを用いたディープラーニング手法の組合せよりも優れていると考えられる。
予備的な結果は、データセットが従来の機械学習アプローチに偏った特定の特徴があることを示唆している。
関連論文リスト
- Representing visual classification as a linear combination of words [0.0]
視覚分類タスクの言語ベースの記述子を識別するために,視覚言語モデルを用いた説明可能性戦略を提案する。
画像とテキストの間に予め訓練された結合埋め込み空間を利用することで,新しい分類課題を単語の線形結合として推定する。
その結果,ドメイン特化言語訓練の欠如にもかかわらず,結果として得られた記述子は臨床知識とほぼ一致していることが判明した。
論文 参考訳(メタデータ) (2023-11-18T02:00:20Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Multi-View Joint Learning Framework for Embedding Clinical Codes and
Text Using Graph Neural Networks [23.06795121693656]
我々は,テキストの可用性と前方性,およびICDコードの性能向上を両立させるため,コードとテキストから学習するフレームワークを提案する。
我々のアプローチでは、ICDコードを処理するグラフニューラルネットワーク(GNN)と、テキストを処理するBi-LSTMを用いています。
計画された外科手術用テキストを用いた実験では,BERTモデルが臨床データに微調整されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T09:19:03Z) - Knowledge-augmented Graph Neural Networks with Concept-aware Attention for Adverse Drug Event Detection [9.334701229573739]
副作用薬物イベント(ADEs)は、薬物の安全性の重要な側面である。
さまざまな文献にはADEに関する豊富な情報が含まれている。
近年,テキストからのADE検出を自動化するために,単語埋め込みとディープラーニングに基づく自然言語処理を適用している。
本稿では,グラフ内のノードの種類によって異なる特徴を学習する,概念認識型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-01-25T08:01:45Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Hierarchical Learning Using Deep Optimum-Path Forest [55.60116686945561]
バグオブビジュアルワード(bovw)やディープラーニング技術は、コンピュータ支援医療診断を含むいくつかの領域で広く使われている。
本研究では機械学習とBoVWの概念を用いたパーキンソン病の自動同定ツールの開発に興味を持っている。
論文 参考訳(メタデータ) (2021-02-18T13:02:40Z) - Integration of Domain Knowledge using Medical Knowledge Graph Deep
Learning for Cancer Phenotyping [6.077023952306772]
本稿では,医学用語からの外部知識を単語埋め込みによって捉えた文脈に統合する手法を提案する。
提案手法は,Multitask Convolutional Neural Network (MT-CNN) を用いて,900Kの癌病理所見のデータセットから6つのがん特性を抽出する。
論文 参考訳(メタデータ) (2021-01-05T03:59:43Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。