論文の概要: Multi-objective Representation for Numbers in Clinical Narratives: A CamemBERT-Bio-Based Alternative to Large-Scale LLMs
- arxiv url: http://arxiv.org/abs/2405.18448v3
- Date: Sat, 01 Mar 2025 09:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:04:48.020878
- Title: Multi-objective Representation for Numbers in Clinical Narratives: A CamemBERT-Bio-Based Alternative to Large-Scale LLMs
- Title(参考訳): 臨床物語における数字の多目的表現:CamemBERT-biio-based alternative to large-scale LLMs
- Authors: Boammani Aser Lompo, Thanh-Dung Le,
- Abstract要約: 本稿では,数値の理解におけるトランスフォーマーモデルの限界について検討する。
医学文書から抽出した数値を,CamemBERT-bioを用いて8つの特定の生理カテゴリーに分類することを目的とする。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License:
- Abstract: The processing of numerical values is a rapidly developing area in the field of Language Models (LLMs). Despite numerous advancements achieved by previous research, significant challenges persist, particularly within the healthcare domain. This paper investigates the limitations of Transformer models in understanding numerical values. \textit{Objective:} this research aims to categorize numerical values extracted from medical documents into eight specific physiological categories using CamemBERT-bio. \textit{Methods:} In a context where scalable methods and Large Language Models (LLMs) are emphasized, we explore lifting the limitations of transformer-based models. We examine two strategies: fine-tuning CamemBERT-bio on a small medical dataset, integrating Label Embedding for Self-Attention (LESA), and combining LESA with additional enhancement techniques such as Xval. Given that CamemBERT-bio is already pre-trained on a large medical dataset, the first approach aims to update its encoder with the newly added label embeddings technique. In contrast, the second approach seeks to develop multiple representations of numbers (contextual and magnitude-based) to achieve more robust number embeddings. \textit{Results:} As anticipated, fine-tuning the standard CamemBERT-bio on our small medical dataset did not improve F1 scores. However, significant improvements were observed with CamemBERT-bio + LESA, resulting in an over 13\% increase. Similar enhancements were noted when combining LESA with Xval, outperforming conventional methods and giving comparable results to GPT-4 \textit{Conclusions and Novelty:} This study introduces two innovative techniques for handling numerical data, which are also applicable to other modalities. We illustrate how these techniques can improve the performance of Transformer-based models, achieving more reliable classification results even with small datasets.
- Abstract(参考訳): 数値処理は言語モデル(LLM)の分野で急速に発展している分野である。
以前の研究によって達成された多くの進歩にもかかわらず、特に医療領域内では大きな課題が続いている。
本稿では,数値の理解におけるトランスフォーマーモデルの限界について検討する。
本研究の目的は,医療用文書から抽出した数値を,CamemBERT-bioを用いて8つの特定の生理的カテゴリに分類することである。
スケーラブルなメソッドとLarge Language Models(LLMs)が強調されるコンテキストでは、トランスフォーマーベースのモデルの制限を緩和することを検討する。
我々は,小さな医療データセット上でのCamemBERT-bioの微調整,自己注意のためのラベル埋め込み(LESA)の統合,およびXvalなどの追加拡張技術とLESAを組み合わせた2つの戦略について検討した。
CamemBERT-bioはすでに大規模な医療データセットで事前トレーニングされているので、最初のアプローチはエンコーダを新しいラベル埋め込み技術で更新することを目指している。
対照的に、第二のアプローチはより堅牢な数埋め込みを達成するために、数(コンテキストと等級に基づく)の複数の表現を開発することを目指している。
\textit{Results:} 予想通り、我々の小さな医療データセットで標準のCamemBERT-bioを微調整してもF1スコアは改善しなかった。
しかし,CamemBERT-bio + LESAでは有意な改善がみられ,13。
LESAをXvalと組み合わせることで、従来の手法より優れ、GPT-4 \textit{Conclusions and Novelty:} に匹敵する結果が得られる。
これらの技術がTransformerベースのモデルの性能を向上し、小さなデータセットであってもより信頼性の高い分類結果が得られることを示す。
関連論文リスト
- Medical-GAT: Cancer Document Classification Leveraging Graph-Based Residual Network for Scenarios with Limited Data [2.913761513290171]
我々は, 甲状腺癌, 大腸癌, 肺癌, 一般の話題に分類した, 1,874 の生医学的抄録を収集した。
我々の研究は、特にデータスカースシナリオにおいて、分類性能を改善するためにこのデータセットを活用することに焦点を当てている。
がん関連文書のセマンティック情報と構造的関係をキャプチャする複数のグラフアテンション層を備えたResidual Graph Attention Network(R-GAT)を導入する。
論文 参考訳(メタデータ) (2024-10-19T20:07:40Z) - Depression detection in social media posts using transformer-based models and auxiliary features [6.390468088226495]
ソーシャルメディア投稿における抑うつの検出は、メンタルヘルス問題の増加により重要である。
従来の機械学習アルゴリズムは複雑なテキストパターンのキャプチャに失敗することが多く、抑うつを識別する効果を制限している。
本研究では,メタデータと言語マーカーを組み合わせたトランスフォーマーモデルを利用したニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-30T07:53:39Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - From Zero to Hero: Harnessing Transformers for Biomedical Named Entity Recognition in Zero- and Few-shot Contexts [0.0]
本稿では,生物医学領域におけるゼロショットNERと少数ショットNERの手法を提案する。
我々は、ゼロショットNERが35.44%、ワンショットNERが50.10%、10ショットNERが69.94%、100ショットNERが79.51%の平均スコアを達成した。
論文 参考訳(メタデータ) (2023-05-05T12:14:22Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Clinical Concept and Relation Extraction Using Prompt-based Machine
Reading Comprehension [38.79665143111312]
我々は,統合されたプロンプトベース機械読解アーキテクチャを用いて,臨床概念抽出と関係抽出の両方を定式化する。
MRCモデルと既存のディープラーニングモデルを比較し,概念抽出とエンドツーエンド関係抽出を行う。
クロスインスティテュート・セッティングにおいて,提案したMRCモデルの伝達学習能力を評価する。
論文 参考訳(メタデータ) (2023-03-14T22:37:31Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - A Meta-GNN approach to personalized seizure detection and classification [53.906130332172324]
本稿では,特定の患者に限られた発作サンプルから迅速に適応できるパーソナライズされた発作検出・分類フレームワークを提案する。
トレーニング患者の集合からグローバルモデルを学ぶメタGNNベースの分類器を訓練する。
本手法は, 未確認患者20回に限って, 精度82.7%, F1スコア82.08%を達成し, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-11-01T14:12:58Z) - Deeper Clinical Document Understanding Using Relation Extraction [0.0]
名前付きエンティティ認識(NER)と関係抽出(RE)モデルからなるテキストマイニングフレームワークを提案する。
我々は2つの新しいREモデルアーキテクチャを導入し、BioBERTをベースとした精度最適化アーキテクチャと、フル接続ニューラルネットワーク(FCNN)上のクラフト機能を活用した速度最適化アーキテクチャを紹介した。
本稿では,この枠組みの実践的応用として,バイオメディカル知識グラフの構築と臨床コードへの実体マッピングの精度向上について述べる。
論文 参考訳(メタデータ) (2021-12-25T17:14:13Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。