Fugu-MT 論文翻訳(概要): Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP

論文の概要: Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP

arxiv url: http://arxiv.org/abs/2503.17425v1
Date: Fri, 21 Mar 2025 10:18:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.640176
Title: Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP
Title（参考訳）: 否定検出を超えて:臨床NLPのための包括的挿入検出モデル
Authors: Veysel Kocaman, Yigit Gul, M. Aytug Kaya, Hasham Ul Haq, Mehmet Butgul, Cabir Celik, David Talby,
Abstract要約: 我々は最先端のアサーション検出モデルを開発する。我々はこれらのモデルを,クラウドベースの商用APIソリューション,レガシルールベースのNegExアプローチ,GPT-4oに対して評価する。
参考スコア（独自算出の注目度）: 5.297964922424743
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Assertion status detection is a critical yet often overlooked component of clinical NLP, essential for accurately attributing extracted medical facts. Past studies have narrowly focused on negation detection, leading to underperforming commercial solutions such as AWS Medical Comprehend, Azure AI Text Analytics, and GPT-4o due to their limited domain adaptation. To address this gap, we developed state-of-the-art assertion detection models, including fine-tuned LLMs, transformer-based classifiers, few-shot classifiers, and deep learning (DL) approaches. We evaluated these models against cloud-based commercial API solutions, the legacy rule-based NegEx approach, and GPT-4o. Our fine-tuned LLM achieves the highest overall accuracy (0.962), outperforming GPT-4o (0.901) and commercial APIs by a notable margin, particularly excelling in Present (+4.2%), Absent (+8.4%), and Hypothetical (+23.4%) assertions. Our DL-based models surpass commercial solutions in Conditional (+5.3%) and Associated-with-Someone-Else (+10.1%) categories, while the few-shot classifier offers a lightweight yet highly competitive alternative (0.929), making it ideal for resource-constrained environments. Integrated within Spark NLP, our models consistently outperform black-box commercial solutions while enabling scalable inference and seamless integration with medical NER, Relation Extraction, and Terminology Resolution. These results reinforce the importance of domain-adapted, transparent, and customizable clinical NLP solutions over general-purpose LLMs and proprietary APIs.
Abstract（参考訳）: 静注状態検出は、抽出された医学的事実を正確に帰属させるのに不可欠な臨床NLPの重要な構成要素であるが、しばしば見落とされがちである。 AWS Medical Comprehend、Azure AI Text Analytics、GPT-4oといった、ドメイン適応の制限による商用ソリューションのパフォーマンスの低下につながった。このギャップに対処するため、我々は、微調整LDM、トランスフォーマーベース分類器、少数ショット分類器、ディープラーニング(DL)アプローチを含む最先端のアサーション検出モデルを開発した。我々はこれらのモデルを,クラウドベースの商用APIソリューション,レガシルールベースのNegExアプローチ,GPT-4oに対して評価した。我々の微調整 LLM は最高精度 (0.962) を達成し, GPT-4o (0.901) と商用APIを顕著な差で上回り, 特に現在 (+4.2%), Absent (+8.4%), 仮説 (+23.4%) で優れていた。我々のDLベースのモデルは、Conditional (+5.3%) とAssociated-with-Someone-Else (+10.1%) の2つのカテゴリの商用ソリューションを超越している。 Spark NLPに組み込まれた私たちのモデルは、スケーラブルな推論と医療NER、リレーショナル抽出、ターミノロジー解決とのシームレスな統合を可能にしながら、ブラックボックスの商用ソリューションを一貫して上回ります。これらの結果は、汎用LLMやプロプライエタリAPIよりも、ドメイン適応型、透過型、カスタマイズ可能な臨床NLPソリューションの重要性を強化している。

関連論文リスト

A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。 SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-15T21:40:21Z)
In-Context Learning for Label-Efficient Cancer Image Classification in Oncology [1.741659712094955]
In-context Learning (ICL) は、ドメイン固有の診断タスクに対するモデル再トレーニングの実用的な代替手段である。視覚言語モデル(VLM)-Paligemma, CLIP, ALIGN, GPT-4o の評価を行った。 ICLは、サイズが小さいにもかかわらず競争力の向上を示し、計算に制約のある臨床環境への展開の可能性を示した。
論文参考訳（メタデータ） (2025-05-08T20:49:01Z)
Accelerating Clinical NLP at Scale with a Hybrid Framework with Reduced GPU Demands: A Case Study in Dementia Identification [0.12369842801624054]
本稿では,ルールベースのフィルタリング,サポートベクトルマシン(SVM)分類器,BERTモデルを統合するハイブリッドNLPフレームワークを提案する。我々はこの枠組みを、重篤な高血圧を持つ490万人の退役軍人の認知症鑑定ケーススタディに応用し、210億の臨床記録を分析した。
論文参考訳（メタデータ） (2025-04-16T21:24:38Z)
A Lightweight and Extensible Cell Segmentation and Classification Model for Whole Slide Images [0.0]
本稿では,軽量なセルセグメンテーションと分類モデルを作成することにより,データ品質,モデル性能,ユーザビリティを向上させるソリューションを提案する。そこで,PanNukeとMoNuSACのアノテーションを改良し,異なる7つのセルタイプで統一されたデータセットを生成する。第3に、基礎モデルの計算要求に対処するため、比較性能を維持しながら、モデルのサイズと複雑さを減らすために知識を蒸留する。
論文参考訳（メタデータ） (2025-02-26T15:19:52Z)
LLMs for Drug-Drug Interaction Prediction: A Comprehensive Comparison [3.2627279988912194]
大規模言語モデル (LLM) は様々な領域に革命をもたらしたが、薬学研究におけるその可能性はほとんど解明されていない。本研究は薬物と薬物の相互作用(DDI)を予測するLLMの機能について徹底的に研究する。プロプライエタリモデル(GPT-4, Claude, Gemini)やオープンソースモデル(1.5Bから72Bパラメータ)を含む18種類のLCMを評価した。微調整のLLMは優れた性能を示し、Phi-3.5 2.7BはDDI予測において0.978の感度を達成し、バランスの取れたデータセットでは0.919の精度を実現した。
論文参考訳（メタデータ） (2025-02-09T09:58:12Z)
Efficient Brain Tumor Classification with Lightweight CNN Architecture: A Novel Approach [0.0]
MRI画像を用いた脳腫瘍の分類は、早期かつ正確な検出が患者の予後に大きな影響を及ぼす医療診断において重要である。近年のディープラーニング(DL)の進歩は将来性を示しているが、多くのモデルは精度と計算効率のバランスに苦慮している。本稿では,分離可能な畳み込みと圧縮・励振ブロック(SEブロック)を統合した新しいモデルアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-01T21:06:42Z)
Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文参考訳（メタデータ） (2025-01-25T07:21:50Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。 EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。 EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文参考訳（メタデータ） (2024-12-06T09:59:47Z)
Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文参考訳（メタデータ） (2024-07-25T05:03:01Z)
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。 Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-06-26T17:43:06Z)
RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness [102.06442250444618]
RLAIF-Vは,MLLMを完全なオープンソースパラダイムで整列させる新しいフレームワークである。 RLAIF-Vは、高品質なフィードバックデータ生成を含む2つの観点から、オープンソースのMLLMを最大限に探求する。 RLAIF-Vは、自動評価と人的評価の両方で6つのベンチマーク実験を行い、モデルの信頼性を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-05-27T14:37:01Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)
Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
Distilling Large Language Models for Matching Patients to Clinical Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文参考訳（メタデータ） (2023-12-15T17:11:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。