論文の概要: Comparative Analysis of Text Classification Approaches in Electronic
Health Records
- arxiv url: http://arxiv.org/abs/2005.06624v1
- Date: Fri, 8 May 2020 14:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:49:49.391931
- Title: Comparative Analysis of Text Classification Approaches in Electronic
Health Records
- Title(参考訳): 電子健康記録におけるテキスト分類手法の比較分析
- Authors: Aurelie Mascio, Zeljko Kraljevic, Daniel Bean, Richard Dobson, Robert
Stewart, Rebecca Bendayan, Angus Roberts
- Abstract要約: 各種単語表現, テキスト前処理, 分類アルゴリズムが4種類のテキスト分類タスクの性能に与える影響を解析する。
その結果、従来のアプローチは、特定の言語や、分類タスクに固有のテキストの構造に合わせると、より最近のものの性能を達成または超えることができることがわかった。
- 参考スコア(独自算出の注目度): 0.6229951975208341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text classification tasks which aim at harvesting and/or organizing
information from electronic health records are pivotal to support clinical and
translational research. However these present specific challenges compared to
other classification tasks, notably due to the particular nature of the medical
lexicon and language used in clinical records. Recent advances in embedding
methods have shown promising results for several clinical tasks, yet there is
no exhaustive comparison of such approaches with other commonly used word
representations and classification models. In this work, we analyse the impact
of various word representations, text pre-processing and classification
algorithms on the performance of four different text classification tasks. The
results show that traditional approaches, when tailored to the specific
language and structure of the text inherent to the classification task, can
achieve or exceed the performance of more recent ones based on contextual
embeddings such as BERT.
- Abstract(参考訳): 電子健康記録から情報を収集・整理することを目的としたテキスト分類タスクは、臨床・翻訳研究を支援するために重要である。
しかし、これらの具体的な課題は他の分類課題と比較して、特に臨床記録に使用される医療レキシコンと言語の性質が原因である。
近年, 組込み手法の進歩はいくつかの臨床課題において有望な成果を上げているが, 他の一般的な単語表現や分類モデルとの徹底的な比較は行われていない。
本研究では,様々な単語表現,テキスト前処理,分類アルゴリズムが4つの異なるテキスト分類タスクの性能に与える影響を分析した。
その結果、従来のアプローチは、特定の言語や、分類タスクに固有のテキストの構造に合わせると、BERTのようなコンテキスト埋め込みに基づいて、より最近のものの性能を達成または超えることができた。
関連論文リスト
- Text Classification using Graph Convolutional Networks: A Comprehensive Survey [11.1080224302799]
グラフ畳み込みネットワーク(GCN)ベースのアプローチは、この10年間、この分野で大きな注目を集めてきた。
本研究の目的は,GCNをベースとしたテキスト分類手法をアーキテクチャや監視方法に関して要約し,分類することである。
論文 参考訳(メタデータ) (2024-10-12T07:03:42Z) - Explainability of machine learning approaches in forensic linguistics: a case study in geolinguistic authorship profiling [46.58131072375399]
法医学的文脈を考慮した機械学習手法の説明可能性について検討する。
我々は、ドイツ語圏のソーシャルメディアデータに基づく未知のテキストのジオ言語的プロファイリングの手段として、多種多様な分類に焦点を当てた。
抽出した語彙的特徴がそれぞれの品種を実際に代表しており、訓練されたモデルは分類の場所名にも依存していることに注意する。
論文 参考訳(メタデータ) (2024-04-29T08:52:52Z) - Comparison between parameter-efficient techniques and full fine-tuning: A case study on multilingual news article classification [4.498100922387482]
Adapters and Low-Rank Adaptation (LoRA)は、言語モデルのトレーニングをより効率的にするために設計されたパラメータ効率の良い微調整技術である。
過去の結果は,これらの手法がいくつかの分類タスクの性能を向上させることさえできることを示した。
本稿では,これらの手法が完全微調整と比較して分類性能と計算コストに与える影響について検討する。
論文 参考訳(メタデータ) (2023-08-14T17:12:43Z) - Making the Most Out of the Limited Context Length: Predictive Power
Varies with Clinical Note Type and Note Section [70.37720062263176]
本研究では,高い予測力で区間を解析する枠組みを提案する。
MIMIC-IIIを用いて,(1)看護用音符と退院用音符とでは予測電力分布が異なること,(2)文脈長が大きい場合の音符の組み合わせにより性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-13T20:04:05Z) - Evaluating Unsupervised Text Classification: Zero-shot and
Similarity-based Approaches [0.6767885381740952]
類似性に基づくアプローチは、テキスト文書表現とクラス記述表現の類似性に基づいてインスタンスを分類しようとする。
ゼロショットテキスト分類手法は、未知クラスの適切なラベルをテキスト文書に割り当てることで、トレーニングタスクから得られる知識を一般化することを目的としている。
本稿では, 類似度に基づくゼロショットとゼロショットのアプローチを, 未確認クラスのテキスト分類のために体系的に評価する。
論文 参考訳(メタデータ) (2022-11-29T15:14:47Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Detect and Classify -- Joint Span Detection and Classification for
Health Outcomes [15.496885113949252]
単語レベル情報と文レベル情報の両方を用いて,結果スパン検出と結果型分類を同時に行う手法を提案する。
健康結果検出のためのいくつかのベンチマークデータセットの実験結果から,我々のモデルはデカップリング法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-04-15T21:47:15Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Seeing The Whole Patient: Using Multi-Label Medical Text Classification
Techniques to Enhance Predictions of Medical Codes [2.158285012874102]
18,50,155ラベルの多ラベル医療用テキスト分類問題について報告する。
不均衡なデータに対して、頻繁に発生するラベルは、埋め込みに組み込まれた追加機能から最も恩恵を受けることを示す。
この研究の高次元埋め込みは公共用途に利用可能である。
論文 参考訳(メタデータ) (2020-03-29T02:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。