論文の概要: Multi-objective Representation for Numbers in Clinical Narratives Using CamemBERT-bio
- arxiv url: http://arxiv.org/abs/2405.18448v1
- Date: Tue, 28 May 2024 01:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-30 22:22:47.107412
- Title: Multi-objective Representation for Numbers in Clinical Narratives Using CamemBERT-bio
- Title(参考訳): CamemBERT-bioを用いた臨床物語の多目的表現
- Authors: Boammani Aser Lompo, Thanh-Dung Le,
- Abstract要約: 本研究の目的は,医学文献から抽出した数値を7つの生理カテゴリーに分類することである。
キーワード埋め込みをモデルに統合し、数に依存しない戦略を採用する、という2つの主要なイノベーションを紹介します。
従来のF1スコア0.89を上回り,CamemBERT-bioの有効性を著しく改善した。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This research aims to classify numerical values extracted from medical documents across seven distinct physiological categories, employing CamemBERT-bio. Previous studies suggested that transformer-based models might not perform as well as traditional NLP models in such tasks. To enhance CamemBERT-bio's performances, we introduce two main innovations: integrating keyword embeddings into the model and adopting a number-agnostic strategy by excluding all numerical data from the text. The implementation of label embedding techniques refines the attention mechanisms, while the technique of using a `numerical-blind' dataset aims to bolster context-centric learning. Another key component of our research is determining the criticality of extracted numerical data. To achieve this, we utilized a simple approach that involves verifying if the value falls within the established standard ranges. Our findings are encouraging, showing substantial improvements in the effectiveness of CamemBERT-bio, surpassing conventional methods with an F1 score of 0.89. This represents an over 20\% increase over the 0.73 $F_1$ score of traditional approaches and an over 9\% increase over the 0.82 $F_1$ score of state-of-the-art approaches. All this was achieved despite using small and imbalanced training datasets.
- Abstract(参考訳): 本研究では,CamemBERT-bioを用いて,医学文献から抽出した数値を7つの異なる生理カテゴリーに分類することを目的とした。
従来の研究は、トランスフォーマーベースのモデルが従来のNLPモデルと同等に機能しない可能性を示唆していた。
CamemBERT-bioのパフォーマンスを向上させるために,キーワード埋め込みをモデルに組み込むことと,テキストからすべての数値データを排除して数に依存しない戦略を採用するという,2つの大きなイノベーションを紹介した。
ラベル埋め込み手法の実装は、注意機構を洗練させ、"数値盲点"データセットを使用する技術は、文脈中心の学習を促進することを目的としている。
我々の研究のもう1つの重要な要素は、抽出された数値データの臨界度を決定することである。
これを実現するために、確立された標準範囲内に値が該当するかどうかを検証するための簡単なアプローチを利用した。
F1スコア0.89の従来法を上回り,CamemBERT-bioの有効性が著しく向上した。
これは従来のアプローチの0.73ドルF_1$スコアよりも20倍、最先端のアプローチの0.82ドルF_1$スコアよりも9倍以上増加することを意味する。
トレーニングデータセットが小さく、バランスの取れていないにもかかわらず、これらすべてが達成された。
関連論文リスト
- Medical-GAT: Cancer Document Classification Leveraging Graph-Based Residual Network for Scenarios with Limited Data [2.913761513290171]
我々は, 甲状腺癌, 大腸癌, 肺癌, 一般の話題に分類した, 1,874 の生医学的抄録を収集した。
我々の研究は、特にデータスカースシナリオにおいて、分類性能を改善するためにこのデータセットを活用することに焦点を当てている。
がん関連文書のセマンティック情報と構造的関係をキャプチャする複数のグラフアテンション層を備えたResidual Graph Attention Network(R-GAT)を導入する。
論文 参考訳(メタデータ) (2024-10-19T20:07:40Z) - Depression detection in social media posts using transformer-based models and auxiliary features [6.390468088226495]
ソーシャルメディア投稿における抑うつの検出は、メンタルヘルス問題の増加により重要である。
従来の機械学習アルゴリズムは複雑なテキストパターンのキャプチャに失敗することが多く、抑うつを識別する効果を制限している。
本研究では,メタデータと言語マーカーを組み合わせたトランスフォーマーモデルを利用したニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-30T07:53:39Z) - Improving Extraction of Clinical Event Contextual Properties from Electronic Health Records: A Comparative Study [2.0884301753594334]
本研究は,医学テキスト分類のための様々な自然言語モデルの比較分析を行う。
BERTはBi-LSTMモデルを最大28%、ベースラインのBERTモデルを最大16%上回り、マイノリティクラスをリコールする。
論文 参考訳(メタデータ) (2024-08-30T10:28:49Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - Using Large Language Models to Automate Category and Trend Analysis of
Scientific Articles: An Application in Ophthalmology [4.455826633717872]
本稿では,Large Language Models (LLM) のパワーを活用した記事分類の自動手法を提案する。
平均精度は0.86、平均F1は0.85である。
モデルの他の科学分野への拡張性は、様々な分野にわたる研究やトレンド分析の促進にその影響を広げる。
論文 参考訳(メタデータ) (2023-08-31T12:45:53Z) - CamemBERT-bio: Leveraging Continual Pre-training for Cost-Effective Models on French Biomedical Data [1.1265248232450553]
BERTライクなモデルによるトランスファーラーニングは、特に名前付きエンティティ認識において、フランス語に大きな進歩をもたらした。
我々は,フランスの生物医学モデルであるCamemBERT-bioを紹介した。
連続的な事前トレーニングを通じて、CamemBERT-bioは、様々な生物医学的名前付きエンティティ認識タスクで平均2.54ポイントのF1スコアを達成している。
論文 参考訳(メタデータ) (2023-06-27T15:23:14Z) - From Zero to Hero: Harnessing Transformers for Biomedical Named Entity Recognition in Zero- and Few-shot Contexts [0.0]
本稿では,生物医学領域におけるゼロショットNERと少数ショットNERの手法を提案する。
我々は、ゼロショットNERが35.44%、ワンショットNERが50.10%、10ショットNERが69.94%、100ショットNERが79.51%の平均スコアを達成した。
論文 参考訳(メタデータ) (2023-05-05T12:14:22Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Clinical Concept and Relation Extraction Using Prompt-based Machine
Reading Comprehension [38.79665143111312]
我々は,統合されたプロンプトベース機械読解アーキテクチャを用いて,臨床概念抽出と関係抽出の両方を定式化する。
MRCモデルと既存のディープラーニングモデルを比較し,概念抽出とエンドツーエンド関係抽出を行う。
クロスインスティテュート・セッティングにおいて,提案したMRCモデルの伝達学習能力を評価する。
論文 参考訳(メタデータ) (2023-03-14T22:37:31Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - A Meta-GNN approach to personalized seizure detection and classification [53.906130332172324]
本稿では,特定の患者に限られた発作サンプルから迅速に適応できるパーソナライズされた発作検出・分類フレームワークを提案する。
トレーニング患者の集合からグローバルモデルを学ぶメタGNNベースの分類器を訓練する。
本手法は, 未確認患者20回に限って, 精度82.7%, F1スコア82.08%を達成し, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-11-01T14:12:58Z) - Deeper Clinical Document Understanding Using Relation Extraction [0.0]
名前付きエンティティ認識(NER)と関係抽出(RE)モデルからなるテキストマイニングフレームワークを提案する。
我々は2つの新しいREモデルアーキテクチャを導入し、BioBERTをベースとした精度最適化アーキテクチャと、フル接続ニューラルネットワーク(FCNN)上のクラフト機能を活用した速度最適化アーキテクチャを紹介した。
本稿では,この枠組みの実践的応用として,バイオメディカル知識グラフの構築と臨床コードへの実体マッピングの精度向上について述べる。
論文 参考訳(メタデータ) (2021-12-25T17:14:13Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。