論文の概要: Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP
- arxiv url: http://arxiv.org/abs/2503.17425v1
- Date: Fri, 21 Mar 2025 10:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:32.113317
- Title: Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP
- Title(参考訳): 否定検出を超えて:臨床NLPのための包括的挿入検出モデル
- Authors: Veysel Kocaman, Yigit Gul, M. Aytug Kaya, Hasham Ul Haq, Mehmet Butgul, Cabir Celik, David Talby,
- Abstract要約: 我々は最先端のアサーション検出モデルを開発する。
我々はこれらのモデルを,クラウドベースの商用APIソリューション,レガシルールベースのNegExアプローチ,GPT-4oに対して評価する。
- 参考スコア(独自算出の注目度): 5.297964922424743
- License:
- Abstract: Assertion status detection is a critical yet often overlooked component of clinical NLP, essential for accurately attributing extracted medical facts. Past studies have narrowly focused on negation detection, leading to underperforming commercial solutions such as AWS Medical Comprehend, Azure AI Text Analytics, and GPT-4o due to their limited domain adaptation. To address this gap, we developed state-of-the-art assertion detection models, including fine-tuned LLMs, transformer-based classifiers, few-shot classifiers, and deep learning (DL) approaches. We evaluated these models against cloud-based commercial API solutions, the legacy rule-based NegEx approach, and GPT-4o. Our fine-tuned LLM achieves the highest overall accuracy (0.962), outperforming GPT-4o (0.901) and commercial APIs by a notable margin, particularly excelling in Present (+4.2%), Absent (+8.4%), and Hypothetical (+23.4%) assertions. Our DL-based models surpass commercial solutions in Conditional (+5.3%) and Associated-with-Someone-Else (+10.1%) categories, while the few-shot classifier offers a lightweight yet highly competitive alternative (0.929), making it ideal for resource-constrained environments. Integrated within Spark NLP, our models consistently outperform black-box commercial solutions while enabling scalable inference and seamless integration with medical NER, Relation Extraction, and Terminology Resolution. These results reinforce the importance of domain-adapted, transparent, and customizable clinical NLP solutions over general-purpose LLMs and proprietary APIs.
- Abstract(参考訳): 静注状態検出は、抽出された医学的事実を正確に帰属させるのに不可欠な臨床NLPの重要な構成要素であるが、しばしば見落とされがちである。
AWS Medical Comprehend、Azure AI Text Analytics、GPT-4oといった、ドメイン適応の制限による商用ソリューションのパフォーマンスの低下につながった。
このギャップに対処するため、我々は、微調整LDM、トランスフォーマーベース分類器、少数ショット分類器、ディープラーニング(DL)アプローチを含む最先端のアサーション検出モデルを開発した。
我々はこれらのモデルを,クラウドベースの商用APIソリューション,レガシルールベースのNegExアプローチ,GPT-4oに対して評価した。
我々の微調整 LLM は最高精度 (0.962) を達成し, GPT-4o (0.901) と商用APIを顕著な差で上回り, 特に現在 (+4.2%), Absent (+8.4%), 仮説 (+23.4%) で優れていた。
我々のDLベースのモデルは、Conditional (+5.3%) とAssociated-with-Someone-Else (+10.1%) の2つのカテゴリの商用ソリューションを超越している。
Spark NLPに組み込まれた私たちのモデルは、スケーラブルな推論と医療NER、リレーショナル抽出、ターミノロジー解決とのシームレスな統合を可能にしながら、ブラックボックスの商用ソリューションを一貫して上回ります。
これらの結果は、汎用LLMやプロプライエタリAPIよりも、ドメイン適応型、透過型、カスタマイズ可能な臨床NLPソリューションの重要性を強化している。
関連論文リスト
- LLMs for Drug-Drug Interaction Prediction: A Comprehensive Comparison [3.2627279988912194]
大規模言語モデル (LLM) は様々な領域に革命をもたらしたが、薬学研究におけるその可能性はほとんど解明されていない。
本研究は薬物と薬物の相互作用(DDI)を予測するLLMの機能について徹底的に研究する。
プロプライエタリモデル(GPT-4, Claude, Gemini)やオープンソースモデル(1.5Bから72Bパラメータ)を含む18種類のLCMを評価した。
微調整のLLMは優れた性能を示し、Phi-3.5 2.7BはDDI予測において0.978の感度を達成し、バランスの取れたデータセットでは0.919の精度を実現した。
論文 参考訳(メタデータ) (2025-02-09T09:58:12Z) - Efficient Brain Tumor Classification with Lightweight CNN Architecture: A Novel Approach [0.0]
MRI画像を用いた脳腫瘍の分類は、早期かつ正確な検出が患者の予後に大きな影響を及ぼす医療診断において重要である。
近年のディープラーニング(DL)の進歩は将来性を示しているが、多くのモデルは精度と計算効率のバランスに苦慮している。
本稿では,分離可能な畳み込みと圧縮・励振ブロック(SEブロック)を統合した新しいモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-01T21:06:42Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。
GPT-4と同等の92.1%のF1スコアが得られた。
論文 参考訳(メタデータ) (2024-10-11T20:16:25Z) - Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。
最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。
オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文 参考訳(メタデータ) (2024-07-25T05:03:01Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Distilling Large Language Models for Matching Patients to Clinical
Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。
本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。
この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文 参考訳(メタデータ) (2023-12-15T17:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。