論文の概要: A Large Language Model Based Pipeline for Review of Systems Entity Recognition from Clinical Notes
- arxiv url: http://arxiv.org/abs/2506.11067v1
- Date: Sat, 31 May 2025 23:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.53955
- Title: A Large Language Model Based Pipeline for Review of Systems Entity Recognition from Clinical Notes
- Title(参考訳): 臨床ノートからのシステムエンティティ認識のレビューのための大規模言語モデルに基づくパイプライン
- Authors: Hieu Nghiem, Hemanth Reddy Singareddy, Zhuqi Miao, Jivan Lamichhane, Abdulaziz Ahmed, Johnson Thomas, Dursun Delen, William Paiva,
- Abstract要約: 臨床ノートからシステムレビュー(ROS)エンティティを自動的に抽出する,費用対効果の高い大規模言語モデル(LLM)ベースのパイプラインを開発した。
我々は,オープンソースのLLM (Mistral, Llama, Gemma) と ChatGPT を用いてパイプラインを実装した。
- 参考スコア(独自算出の注目度): 4.600105612656388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: Develop a cost-effective, large language model (LLM)-based pipeline for automatically extracting Review of Systems (ROS) entities from clinical notes. Materials and Methods: The pipeline extracts ROS sections using SecTag, followed by few-shot LLMs to identify ROS entity spans, their positive/negative status, and associated body systems. We implemented the pipeline using open-source LLMs (Mistral, Llama, Gemma) and ChatGPT. The evaluation was conducted on 36 general medicine notes containing 341 annotated ROS entities. Results: When integrating ChatGPT, the pipeline achieved the lowest error rates in detecting ROS entity spans and their corresponding statuses/systems (28.2% and 14.5%, respectively). Open-source LLMs enable local, cost-efficient execution of the pipeline while delivering promising performance with similarly low error rates (span: 30.5-36.7%; status/system: 24.3-27.3%). Discussion and Conclusion: Our pipeline offers a scalable and locally deployable solution to reduce ROS documentation burden. Open-source LLMs present a viable alternative to commercial models in resource-limited healthcare environments.
- Abstract(参考訳): 目的: 臨床ノートからシステムレビュー(ROS)エンティティを自動的に抽出する,費用対効果の高い大規模言語モデル(LLM)ベースのパイプラインを開発する。
材料と方法: このパイプラインはSecTagを使用してROSセクションを抽出し、次に数発のLCMを使用してROSエンティティのスパン、肯定的/否定的な状態、および関連する身体システムを特定する。
我々は,オープンソースのLLM (Mistral, Llama, Gemma) と ChatGPT を用いてパイプラインを実装した。
この評価は341個のROSを付加した36種類の一般医療用紙を用いて行った。
結果: ChatGPTを統合する場合、パイプラインはROSエンティティと対応するステータス/システム(それぞれ28.2%と14.5%)を検出する際のエラー率が最も低い。
オープンソースのLCMは、同様に低いエラー率(span: 30.5-36.7%、ステータス/システム: 24.3-27.3%)で有望なパフォーマンスを提供しながら、パイプラインの局所的でコスト効率のよい実行を可能にする。
議論と結論:私たちのパイプラインは、ROSドキュメントの負担を軽減するために、スケーラブルでローカルにデプロイ可能なソリューションを提供します。
オープンソースのLCMは、リソース制限された医療環境における商用モデルの選択肢として実行可能なものだ。
関連論文リスト
- Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge [7.064104563689608]
大規模言語モデル (LLM) は, 生物医学的関係抽出において顕著な性能を示した。
本稿では, LLMs-as-the-Judgeをバイオメディカルな関係抽出のための代替評価法として利用することを検討した。
論文 参考訳(メタデータ) (2025-06-01T02:01:52Z) - PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines [0.8148009849453334]
大規模言語モデル(LLM)は、さまざまなドメインにまたがる特殊な実運用データ処理パイプラインに、ますます多くデプロイされている。
これらのアプリケーションの信頼性を向上させるためには、パイプラインと一緒に動作するLCM出力のアサーションやガードレールを作成することが不可欠である。
本稿では,2087のパイプラインプロンプトのデータセットであるPrompTEVALSについて,12623のアサーション基準で紹介する。
論文 参考訳(メタデータ) (2025-04-20T21:04:23Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - SPADE: Synthesizing Data Quality Assertions for Large Language Model Pipelines [15.389579061898429]
本研究では,データ品質アサーションを自動的に合成するSPADEを提案する。
9つの現実世界のLLMパイプラインをテストする場合、SPADEはアサーションの数を14%削減する。
論文 参考訳(メタデータ) (2024-01-05T19:27:58Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。