論文の概要: Systematic Evaluation of Large Language Models for Post-Discharge Clinical Action Extraction
- arxiv url: http://arxiv.org/abs/2605.06191v1
- Date: Thu, 07 May 2026 13:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.809312
- Title: Systematic Evaluation of Large Language Models for Post-Discharge Clinical Action Extraction
- Title(参考訳): 退院後臨床行動抽出のための大規模言語モデルの体系的評価
- Authors: Shivali Dalmia, Ananya Mantravadi, Prasanna Desikan,
- Abstract要約: 本稿では,CLIP分泌ノートデータセットを用いた安全クリティカルな臨床行動抽出のためのゼロショットおよび少数ショット大言語モデル (LLMs) について検討する。
そこで本稿では,物語形式で記述された2段階の退院記譜を,よりきめ細やかに動作可能な臨床タスクに分解する2段階の抽出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The work in this paper evaluates zero-shot and few-shot large language models (LLMs) for safety-critical clinical action extraction using the CLIP discharge-note dataset, with particular emphasis on transitions of care and post-discharge patient safety. To manage the complexity of clinical documentation, we introduce a two-stage extraction framework that decomposes discharge notes, that are written in narrative form, into fine-grained, explicitly actionable clinical tasks through a staged prompting strategy. Our contributions include a systematic assessment of generative LLMs for clinical action extraction, a detailed comparison between general-purpose LLMs and task-specific supervised BERT-based models, and an analysis of annotation inconsistencies across different action categories. We show that contemporary LLMs achieve performance comparable to or exceeding supervised models on binary actionability detection, while supervised baselines retain a meaningful advantage on fine-grained multi-label category classification, despite the absence of task-specific fine-tuning and under strict data-privacy constraints. Qualitative error analysis reveals that many failures stem from misalignment between model reasoning and dataset annotation conventions, particularly in cases involving implicit clinical actions and rigid structural labeling rules. These results indicate that reported performance reflects model limitations due to lack of clinical reasoning, that is not captured by plain annotations. Labels without rationales make it impossible to distinguish clinical reasoning failures from annotation convention mismatches. Advancing clinical NLP requires reasoning-annotated datasets that document why specific spans are actionable, not merely which spans were labeled, enabling proper evaluation of model clinical understanding.
- Abstract(参考訳): 本研究は、CLIP分泌注記データセットを用いた安全クリティカルな臨床行動抽出のためのゼロショットおよび少数ショット大言語モデル(LLMs)の評価であり、特に患者のケアの推移と術後の安全性に重点を置いている。
臨床文書の複雑さを管理するため,2段階抽出フレームワークを導入し,物語形式で記述された吐出音を,段階的プロンプト戦略により,きめ細かな,明示的な実行可能な臨床タスクに分解する。
本研究は,臨床行動抽出のためのジェネレーティブLSMの体系的評価,汎用LSMとタスク固有制御BERTモデルとの詳細な比較,およびさまざまなアクションカテゴリにおけるアノテーションの不整合の分析を含む。
タスク固有の微調整が無く、厳密なデータプライバシ制約下であっても、教師付きベースラインは、きめ細かなマルチラベルカテゴリー分類において有意義な優位性を維持しながら、現代のLLMはバイナリ・アクションビリティ検出における教師付きモデルに匹敵する、あるいは超越する性能を実現していることを示す。
定性的誤り分析は、モデル推論とデータセットアノテーションの規則の相違、特に暗黙的な臨床行動や厳密な構造的ラベリング規則を含む場合の多くの失敗が原因であることを示している。
これらの結果から, 報告された性能は, 平易なアノテーションによって捉えられていない臨床推論の欠如により, モデルの限界を反映していることが示唆された。
合理性のないラベルは、診断規則のミスマッチと臨床推論失敗を区別することは不可能である。
臨床NLPの強化には、特定のスパンがどのスパンにラベル付けされているかだけでなく、なぜ作用するかを記述した推論注釈データセットが必要であり、モデル臨床理解の適切な評価を可能にする。
関連論文リスト
- Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Measuring What VLMs Don't Say: Validation Metrics Hide Clinical Terminology Erasure in Radiology Report Generation [10.15221228043609]
本稿では,テンプレート崩壊に拘わらず,高い集合トークンオーバラップスコアにつながる復号方式について検討する。
本稿では,人口統計に基づく単語の関連性の変化を定量化するための語彙レベルのフレームワークである,臨床協会変位(CAD)について紹介する。
決定論的復号化は意味的消去のレベルが高いことを示し、サンプリングは多様な出力を生成するが、新しいバイアスをもたらすリスクを示す。
論文 参考訳(メタデータ) (2026-03-02T08:59:39Z) - AgenticSum: An Agentic Inference-Time Framework for Faithful Clinical Text Summarization [6.99563009617414]
本稿では, 文脈選択, 生成, 検証, 対象訂正を分離し, 幻覚的内容を減らすための推論時フレームワークであるAgenticSumを提案する。
我々は,2つの公開データセット上で,基準ベースメトリクス,LCM-as-a-judgeアセスメント,人的評価を用いてエージェントサムを評価する。
以上の結果から, 目標修正を施した構造的エージェント設計は, 臨床メモの要約を改善するための効果的な推測時間解を提供することが明らかとなった。
論文 参考訳(メタデータ) (2026-02-23T16:49:37Z) - AgentScore: Autoformulation of Deployable Clinical Scoring Systems [45.88028371034407]
本稿では,単位重み付き臨床チェックリストのセマンティックガイドによる最適化を行うAgentScoreを紹介する。
AgentScoreは既存のスコア生成方法より優れており、より柔軟な解釈可能なモデルに匹敵するAUCを実現している。
さらに2つの外部検証タスクにおいて、AgentScoreは、確立されたガイドラインベースのスコアよりも高い差別を達成する。
論文 参考訳(メタデータ) (2026-01-29T21:11:06Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Measuring and Aligning Abstraction in Vision-Language Models with Medical Taxonomies [9.399546516030757]
Vision-Language Modelsは胸部X線分類において強いゼロショット性能を示すが、標準的なフラットメトリクスは臨床的にマイナーなエラーと重度のエラーを区別することができない。
階層的メトリクスを用いていくつかの最先端のVLMをベンチマークし、クロスブランチミスを捉えるために破滅的抽象化エラーを導入します。
論文 参考訳(メタデータ) (2026-01-21T09:58:50Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - USE-Evaluator: Performance Metrics for Medical Image Segmentation Models
with Uncertain, Small or Empty Reference Annotations [5.672489398972326]
症例の分布と公的なデータセットにおけるセグメンテーション作業の難易度との間には,臨床実践と比較してミスマッチがある。
一般的な指標は、特に臨床データセットにおいて、このミスマッチの影響を測ることに失敗する。
医用画像のセグメンテーションにおける基準アノテーションの不確かさ,小ささ,空さが指標の価値に与える影響について検討する。
論文 参考訳(メタデータ) (2022-09-26T20:40:02Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。