論文の概要: Medical Concept Normalization in a Low-Resource Setting
- arxiv url: http://arxiv.org/abs/2409.14579v1
- Date: Fri, 6 Sep 2024 10:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:08:18.065507
- Title: Medical Concept Normalization in a Low-Resource Setting
- Title(参考訳): 低リソース環境における医療概念正規化
- Authors: Tim Patzelt,
- Abstract要約: 低リソース環境における医療概念正規化の課題について検討する。
ドイツの医療オンラインフォーラムからの投稿からなるデータセットには、統一医療言語システムの概念が注釈付けされている。
実験により、多言語トランスフォーマーベースのモデルが文字列類似性手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of biomedical natural language processing, medical concept normalization is a crucial task for accurately mapping mentions of concepts to a large knowledge base. However, this task becomes even more challenging in low-resource settings, where limited data and resources are available. In this thesis, I explore the challenges of medical concept normalization in a low-resource setting. Specifically, I investigate the shortcomings of current medical concept normalization methods applied to German lay texts. Since there is no suitable dataset available, a dataset consisting of posts from a German medical online forum is annotated with concepts from the Unified Medical Language System. The experiments demonstrate that multilingual Transformer-based models are able to outperform string similarity methods. The use of contextual information to improve the normalization of lay mentions is also examined, but led to inferior results. Based on the results of the best performing model, I present a systematic error analysis and lay out potential improvements to mitigate frequent errors.
- Abstract(参考訳): バイオメディカル自然言語処理の分野では、医療概念正規化は概念の言及を大きな知識ベースに正確にマッピングするための重要なタスクである。
しかし、このタスクは、限られたデータとリソースが利用可能な低リソース設定でさらに困難になる。
本稿では,低リソース環境における医療概念正規化の課題について考察する。
具体的には,ドイツ語テキストに適用されている医学概念正規化手法の問題点について検討する。
適切なデータセットが存在しないため、ドイツの医療オンラインフォーラムからの投稿からなるデータセットには、統一医療言語システムの概念が注釈付けされている。
実験により,多言語トランスフォーマーモデルが文字列類似性手法より優れていることが示された。
また, 文脈情報を用いた平文の正規化も検討したが, 結果が劣る結果となった。
最高の性能モデルの結果に基づいて,系統的なエラー解析を行い,頻繁なエラーを軽減するための潜在的な改善を提案する。
関連論文リスト
- A Textbook Remedy for Domain Shifts: Knowledge Priors for Medical Image Analysis [48.84443450990355]
ディープネットワークは、医学的なスキャンに適用すると、例外のない状況で失敗することが多いため、自然画像の解析において広く成功している。
胸部X線や皮膚病変画像の文脈において、異なる病院から採取したデータや、性別、人種などの人口統計学的変数によって構築されたデータなど、ドメインシフトに対するモデル感度に焦点をあてる。
医学教育からインスピレーションを得て,自然言語で伝達される明示的な医学知識を基盤としたディープネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T17:55:02Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Semantic Textual Similarity Assessment in Chest X-ray Reports Using a
Domain-Specific Cosine-Based Metric [1.7802147489386628]
本稿では,生成医療報告と基礎的真実とのセマンティックな類似性を評価するための新しいアプローチを提案する。
本手法の有効性を検証し,医学的文脈におけるドメイン固有の意味的類似性を評価する。
論文 参考訳(メタデータ) (2024-02-19T07:48:25Z) - Combining Contrastive Learning and Knowledge Graph Embeddings to develop
medical word embeddings for the Italian language [0.0]
本論文は,イタリアの医療領域の未発見ニッチへの埋め込みを改良する試みである。
主な目的は、医療用語間の意味的類似性の精度を向上させることである。
イタリア語には医学的な文章や制御された語彙が欠けているため、我々は特定の解決法を開発した。
論文 参考訳(メタデータ) (2022-11-09T17:12:28Z) - RuMedBench: A Russian Medical Language Understanding Benchmark [58.99199480170909]
本稿では,複数のタスクタイプをカバーするオープンなロシア語医療言語理解ベンチマークについて述べる。
我々は、新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを作成します。
シングルナンバーメトリックは、ベンチマークに対処するモデルの能力を表す。
論文 参考訳(メタデータ) (2022-01-17T16:23:33Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Paragraph-level Simplification of Medical Texts [35.650619024498425]
手動の簡略化は生物医学文献の急速に成長する体にスケールしません。
異なる臨床トピックに関連するすべての公開された証拠の技術的およびレイアウト要約からなる英語での平行テキストの新しいコーパスを紹介します。
本研究では,科学テキストを前提としたマスキング型言語モデルから,確率スコアに基づく新たな指標を提案する。
論文 参考訳(メタデータ) (2021-04-12T18:56:05Z) - Unifying Relational Sentence Generation and Retrieval for Medical Image
Report Composition [142.42920413017163]
現在の手法は、個々のケースのデータセットバイアスにより、しばしば最も一般的な文を生成する。
テンプレート検索と文生成を一体化し、共通およびまれな異常に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T04:33:27Z) - MeDAL: Medical Abbreviation Disambiguation Dataset for Natural Language
Understanding Pretraining [5.807159674193696]
略語用大容量医療用テキストデータセットであるMeDALについて述べる。
このデータセット上で共通アーキテクチャのモデルをいくつか事前トレーニングし,その事前トレーニングが下流医療タスクの微調整時のパフォーマンス向上と収束速度の向上につながることを実証的に示した。
論文 参考訳(メタデータ) (2020-12-27T17:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。