論文の概要: CNSight: Evaluation of Clinical Note Segmentation Tools
- arxiv url: http://arxiv.org/abs/2512.22795v1
- Date: Sun, 28 Dec 2025 05:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.228274
- Title: CNSight: Evaluation of Clinical Note Segmentation Tools
- Title(参考訳): CNSight:臨床ノートセグメンテーションツールの評価
- Authors: Risha Surana, Adrian Law, Sunwoo Kim, Rishab Sridhar, Angxiao Han, Peiyu Hong,
- Abstract要約: また,MIMIC-IVから得られた1000音符のキュレートデータセットを用いて,ルールベースベースベースライン,ドメイン固有トランスフォーマーモデル,および臨床ノートセグメンテーションのための大規模言語モデルの評価を行った。
GPT-5-miniは文レベルと自由テキストセグメンテーションで平均72.4のF1に達する。
- 参考スコア(独自算出の注目度): 3.673249612734457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical notes are often stored in unstructured or semi-structured formats after extraction from electronic medical record (EMR) systems, which complicates their use for secondary analysis and downstream clinical applications. Reliable identification of section boundaries is a key step toward structuring these notes, as sections such as history of present illness, medications, and discharge instructions each provide distinct clinical contexts. In this work, we evaluate rule-based baselines, domain-specific transformer models, and large language models for clinical note segmentation using a curated dataset of 1,000 notes from MIMIC-IV. Our experiments show that large API-based models achieve the best overall performance, with GPT-5-mini reaching a best average F1 of 72.4 across sentence-level and freetext segmentation. Lightweight baselines remain competitive on structured sentence-level tasks but falter on unstructured freetext. Our results provide guidance for method selection and lay the groundwork for downstream tasks such as information extraction, cohort identification, and automated summarization.
- Abstract(参考訳): 臨床ノートは電子カルテ(EMR)システムから抽出された後、しばしば非構造化または半構造化形式で保存される。
セクション境界の信頼性の高い識別は、これらのノートを構築するための重要なステップである。
本研究は,MIMIC-IVから得られた1000音符のキュレートデータセットを用いて,ルールベースベースベースライン,ドメイン固有トランスフォーマーモデル,および臨床ノートセグメンテーションのための大規模言語モデルを評価する。
GPT-5-miniは文レベルと自由テキストセグメンテーションで平均72.4のF1に達する。
軽量のベースラインは、構造化された文レベルのタスクでは競合するが、構造化されていない自由テキストでは不利である。
本研究は,情報抽出,コホート識別,自動要約などの下流タスクの手法選択のためのガイダンスを提供する。
関連論文リスト
- TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - HARMON-E: Hierarchical Agentic Reasoning for Multimodal Oncology Notes to Extract Structured Data [4.776184995012808]
本稿では,複雑なオンコロジーデータ抽出をモジュール型適応タスクに分解するエージェントフレームワークを提案する。
がん患者2250名を対象に,400,000件以上の非構造的臨床記録とPDFをスキャンし,F1スコアの平均0.93を達成した。
論文 参考訳(メタデータ) (2025-12-22T20:38:30Z) - Leveraging LLMs for Structured Data Extraction from Unstructured Patient Records [0.0]
手動チャートのレビューは、臨床研究において非常に時間がかかり、資源集約的な要素である。
局所展開型大規模言語モデル(LLM)を利用した臨床ノートからの自動特徴抽出のためのフレームワークを提案する。
このフレームワークは、手動のチャートレビューの負担を軽減し、データキャプチャの一貫性を向上させるLLMシステムの可能性を示す。
論文 参考訳(メタデータ) (2025-12-03T14:10:12Z) - CLI-RAG: A Retrieval-Augmented Framework for Clinically Structured and Context Aware Text Generation with LLMs [0.1578515540930834]
CLI-RAG (Clinically Informed Retrieval-Augmented Generation) は、構造的および臨床的な基盤となるテキスト生成のためのドメイン固有のフレームワークである。
臨床文書構造を尊重する新しい階層的チャンキング戦略を取り入れ、タスク固有の2段階検索機構を導入する。
本システムを用いて,MIMIC-IIIデータセットから15種類の臨床ノートを作成した。
論文 参考訳(メタデータ) (2025-07-09T10:13:38Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。