論文の概要: Boosting Biomedical Concept Extraction by Rule-Based Data Augmentation
- arxiv url: http://arxiv.org/abs/2407.02719v1
- Date: Wed, 3 Jul 2024 00:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 17:54:48.158429
- Title: Boosting Biomedical Concept Extraction by Rule-Based Data Augmentation
- Title(参考訳): 規則に基づくデータ拡張による医療概念抽出の促進
- Authors: Qiwei Shao, Fengran Mo, Jian-Yun Nie,
- Abstract要約: 文書レベルのバイオメディカル概念抽出は、ある文書で言及されているバイオメディカル概念を識別するタスクである。
近年,この課題に対する事前学習型言語モデルの導入が進んでいる。
既存のルールベースの概念マッピングシステムであるMetaMapLiteを用いて,PubMed と PMC から擬似アノテーション付きデータを生成する。
- 参考スコア(独自算出の注目度): 26.72525935008653
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document-level biomedical concept extraction is the task of identifying biomedical concepts mentioned in a given document. Recent advancements have adapted pre-trained language models for this task. However, the scarcity of domain-specific data and the deviation of concepts from their canonical names often hinder these models' effectiveness. To tackle this issue, we employ MetaMapLite, an existing rule-based concept mapping system, to generate additional pseudo-annotated data from PubMed and PMC. The annotated data are used to augment the limited training data. Through extensive experiments, this study demonstrates the utility of a manually crafted concept mapping tool for training a better concept extraction model.
- Abstract(参考訳): 文書レベルのバイオメディカル概念抽出は、ある文書で言及されているバイオメディカル概念を識別するタスクである。
近年,この課題に対する事前学習型言語モデルの導入が進んでいる。
しかし、ドメイン固有のデータの不足とそれらの標準名からの概念の逸脱は、しばしばこれらのモデルの有効性を妨げている。
この問題に対処するために,既存のルールベースの概念マッピングシステムであるMetaMapLiteを用いて,PubMed と PMC から疑似アノテーション付きデータを生成する。
アノテーション付きデータは、限られたトレーニングデータを増やすために使用される。
本研究では,より広範な実験を通じて,より優れた概念抽出モデルをトレーニングするための手作業による概念マッピングツールの有用性を実証する。
関連論文リスト
- Document-level Clinical Entity and Relation Extraction via Knowledge Base-Guided Generation [0.869967783513041]
統一医療言語システム(UMLS)の知識ベースを利用して医療概念を正確に識別する。
本フレームワークは、テキストに関連するUMLS概念を選択し、エンティティを抽出する際の言語モデルガイドのプロンプトと組み合わせる。
論文 参考訳(メタデータ) (2024-07-13T22:45:46Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - An interpretable deep learning method for bearing fault diagnosis [12.069344716912843]
我々は、グラディエント重み付きクラス活性化マッピング(Grad-CAM)可視化を用いた畳み込みニューラルネットワーク(CNN)を用いて、ベアリング障害を分類するための解釈可能なディープラーニング(DL)手法を構築した。
モデル評価過程において,提案手法は特徴量の類似性に応じて,健康図書館から予測ベースサンプルを検索する。
論文 参考訳(メタデータ) (2023-08-20T15:22:08Z) - Hierarchical Pretraining for Biomedical Term Embeddings [4.69793648771741]
階層データに基づく新しいバイオメディカル用語表現モデルであるHiPrBERTを提案する。
HiPrBERTは階層的な情報からペアワイズ距離を効果的に学習し,さらにバイオメディカルな応用に極めて有用な埋め込みを実現できることを示す。
論文 参考訳(メタデータ) (2023-07-01T08:16:00Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。
我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文 参考訳(メタデータ) (2021-09-17T14:16:00Z) - End-to-end Biomedical Entity Linking with Span-based Dictionary Matching [5.273138059454523]
病名認識と正常化は、生物医学的なテキストマイニングの基本的なプロセスです。
本研究では,スパン表現と辞書マッチング機能を組み合わせた新しいエンドツーエンドアプローチを提案する。
我々のモデルは、ニューラルネットワークモデルの性能を維持しながら辞書を参照することで、目に見えない概念を扱う。
論文 参考訳(メタデータ) (2021-04-21T12:24:12Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Hierarchical Learning Using Deep Optimum-Path Forest [55.60116686945561]
バグオブビジュアルワード(bovw)やディープラーニング技術は、コンピュータ支援医療診断を含むいくつかの領域で広く使われている。
本研究では機械学習とBoVWの概念を用いたパーキンソン病の自動同定ツールの開発に興味を持っている。
論文 参考訳(メタデータ) (2021-02-18T13:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。