論文の概要: Multi-objective Representation for Numbers in Clinical Narratives Using CamemBERT-bio
- arxiv url: http://arxiv.org/abs/2405.18448v2
- Date: Wed, 10 Jul 2024 08:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 20:59:57.974095
- Title: Multi-objective Representation for Numbers in Clinical Narratives Using CamemBERT-bio
- Title(参考訳): CamemBERT-bioを用いた臨床物語の多目的表現
- Authors: Boammani Aser Lompo, Thanh-Dung Le,
- Abstract要約: 本研究の目的は,医学文献から抽出した数値を7つの生理カテゴリーに分類することである。
キーワード埋め込みをモデルに統合し、数に依存しない戦略を採用する、という2つの主要なイノベーションを紹介します。
従来のF1スコア0.89を上回り,CamemBERT-bioの有効性を著しく改善した。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This research aims to classify numerical values extracted from medical documents across seven distinct physiological categories, employing CamemBERT-bio. Previous studies suggested that transformer-based models might not perform as well as traditional NLP models in such tasks. To enhance CamemBERT-bio's performances, we introduce two main innovations: integrating keyword embeddings into the model and adopting a number-agnostic strategy by excluding all numerical data from the text. The implementation of label embedding techniques refines the attention mechanisms, while the technique of using a `numerical-blind' dataset aims to bolster context-centric learning. Another key component of our research is determining the criticality of extracted numerical data. To achieve this, we utilized a simple approach that involves verifying if the value falls within the established standard ranges. Our findings are encouraging, showing substantial improvements in the effectiveness of CamemBERT-bio, surpassing conventional methods with an F1 score of 0.89. This represents an over 20\% increase over the 0.73 $F_1$ score of traditional approaches and an over 9\% increase over the 0.82 $F_1$ score of state-of-the-art approaches. All this was achieved despite using small and imbalanced training datasets.
- Abstract(参考訳): 本研究では,CamemBERT-bioを用いて,医学文献から抽出した数値を7つの異なる生理カテゴリーに分類することを目的とした。
従来の研究は、トランスフォーマーベースのモデルが従来のNLPモデルと同等に機能しない可能性を示唆していた。
CamemBERT-bioのパフォーマンスを向上させるために,キーワード埋め込みをモデルに組み込むことと,テキストからすべての数値データを排除して数に依存しない戦略を採用するという,2つの大きなイノベーションを紹介した。
ラベル埋め込み手法の実装は、注意機構を洗練させ、"数値盲点"データセットを使用する技術は、文脈中心の学習を促進することを目的としている。
我々の研究のもう1つの重要な要素は、抽出された数値データの臨界度を決定することである。
これを実現するために、確立された標準範囲内に値が該当するかどうかを検証するための簡単なアプローチを利用した。
F1スコア0.89の従来法を上回り,CamemBERT-bioの有効性が著しく向上した。
これは従来のアプローチの0.73ドルF_1$スコアよりも20倍、最先端のアプローチの0.82ドルF_1$スコアよりも9倍以上増加することを意味する。
トレーニングデータセットが小さく、バランスの取れていないにもかかわらず、これらすべてが達成された。
関連論文リスト
- Medical-GAT: Cancer Document Classification Leveraging Graph-Based Residual Network for Scenarios with Limited Data [2.913761513290171]
我々は, 甲状腺癌, 大腸癌, 肺癌, 一般の話題に分類した, 1,874 の生医学的抄録を収集した。
我々の研究は、特にデータスカースシナリオにおいて、分類性能を改善するためにこのデータセットを活用することに焦点を当てている。
がん関連文書のセマンティック情報と構造的関係をキャプチャする複数のグラフアテンション層を備えたResidual Graph Attention Network(R-GAT)を導入する。
論文 参考訳(メタデータ) (2024-10-19T20:07:40Z) - Depression detection in social media posts using transformer-based models and auxiliary features [6.390468088226495]
ソーシャルメディア投稿における抑うつの検出は、メンタルヘルス問題の増加により重要である。
従来の機械学習アルゴリズムは複雑なテキストパターンのキャプチャに失敗することが多く、抑うつを識別する効果を制限している。
本研究では,メタデータと言語マーカーを組み合わせたトランスフォーマーモデルを利用したニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-30T07:53:39Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - From Zero to Hero: Harnessing Transformers for Biomedical Named Entity Recognition in Zero- and Few-shot Contexts [0.0]
本稿では,生物医学領域におけるゼロショットNERと少数ショットNERの手法を提案する。
我々は、ゼロショットNERが35.44%、ワンショットNERが50.10%、10ショットNERが69.94%、100ショットNERが79.51%の平均スコアを達成した。
論文 参考訳(メタデータ) (2023-05-05T12:14:22Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Clinical Concept and Relation Extraction Using Prompt-based Machine
Reading Comprehension [38.79665143111312]
我々は,統合されたプロンプトベース機械読解アーキテクチャを用いて,臨床概念抽出と関係抽出の両方を定式化する。
MRCモデルと既存のディープラーニングモデルを比較し,概念抽出とエンドツーエンド関係抽出を行う。
クロスインスティテュート・セッティングにおいて,提案したMRCモデルの伝達学習能力を評価する。
論文 参考訳(メタデータ) (2023-03-14T22:37:31Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - A Meta-GNN approach to personalized seizure detection and classification [53.906130332172324]
本稿では,特定の患者に限られた発作サンプルから迅速に適応できるパーソナライズされた発作検出・分類フレームワークを提案する。
トレーニング患者の集合からグローバルモデルを学ぶメタGNNベースの分類器を訓練する。
本手法は, 未確認患者20回に限って, 精度82.7%, F1スコア82.08%を達成し, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-11-01T14:12:58Z) - Deeper Clinical Document Understanding Using Relation Extraction [0.0]
名前付きエンティティ認識(NER)と関係抽出(RE)モデルからなるテキストマイニングフレームワークを提案する。
我々は2つの新しいREモデルアーキテクチャを導入し、BioBERTをベースとした精度最適化アーキテクチャと、フル接続ニューラルネットワーク(FCNN)上のクラフト機能を活用した速度最適化アーキテクチャを紹介した。
本稿では,この枠組みの実践的応用として,バイオメディカル知識グラフの構築と臨床コードへの実体マッピングの精度向上について述べる。
論文 参考訳(メタデータ) (2021-12-25T17:14:13Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。