論文の概要: Measuring the sensitivity of LLM-based structured extraction to prompt, model, and schema choices in clinical discharge summaries
- arxiv url: http://arxiv.org/abs/2606.05970v1
- Date: Thu, 04 Jun 2026 10:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.716819
- Title: Measuring the sensitivity of LLM-based structured extraction to prompt, model, and schema choices in clinical discharge summaries
- Title(参考訳): LLMによる構造抽出の感度測定による臨床放電サマリーのプロンプト・モデル・スキーマ選択
- Authors: Martin Murin,
- Abstract要約: 大規模言語モデルは、臨床自由テキストノートからの構造化抽出にますます利用されている。
本研究は、抽出タスクを固定し、一度に1つの選択を変更させることにより、人間に注釈を付さない感度を測定する。
クロスプロンプト合意は、ICD成層部分集合上のコーエンのカッパによって測定された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly used for structured extraction from clinical free-text notes, but the sensitivity of their output to upstream configuration choices is less understood than their accuracy on fixed benchmarks. This work measures that sensitivity without human-annotated ground truth, by holding the extraction task fixed and varying one choice at a time. The fixed schema comprises 17 clinical documentation flags on a three-way yes/no/not_documented value set and a 47-tag vocabulary for the primary admission reason. Three prompt variants expressing this schema were each run at two model sizes on MIMIC-IV v3.1 discharge summaries. Cross-prompt agreement was measured by Cohen's kappa on ICD-stratified subsets. A paired same-note comparison isolated the effect of model choice, and a post-hoc collapse of the three-way flags to binary tested the schema's contribution to disagreement. On the three-way flags, the two models reach the same pooled cross-prompt agreement (median kappa 0.69 and 0.68); the larger model raises agreement on some fields and lowers it on others, a redistribution rather than the absence of an effect. Collapsing the schema to binary dissolves most of the cross-prompt disagreement, locating it on the absence-versus-silence distinction rather than on whether the finding is present. On the multi-class admission categorization, changing the model reassigns the dominant tag on close to half of all notes while changing the prompt phrasing reassigns it on roughly one in eight, and the larger model places far less mass on residual catch-all categories (44% to 26%). These patterns indicate a schema-imposed source of disagreement concentrated on the absence-versus-silence axis and a dominance of model over prompt phrasing on multi-class categorization, identified by a reusable methodology for auditing extraction reproducibility on a population-scale deployment.
- Abstract(参考訳): 大規模言語モデルは、臨床自由テキストノートからの構造化抽出にますます使われているが、上流設定の選択に対する出力の感度は、固定されたベンチマークの精度よりも低い。
本研究は、抽出タスクを固定し、一度に1つの選択を変更させることにより、人間に注釈を付さない感度を測定する。
固定スキーマは、3方向のye/no/not_documented値セットに17の臨床文書フラグと、一次入院理由のための47タグ語彙とを備える。
このスキーマを表す3つのプロンプト変種は、それぞれMIMIC-IV v3.1の放電サマリーで2つのモデルサイズで実行された。
クロスプロンプト合意は、ICD成層部分集合上のコーエンのカッパによって測定された。
ペアの同ノート比較では、モデル選択の効果が分離され、3方向フラグがバイナリに崩壊した後、スキーマが不一致に寄与していることが検証された。
3方向フラグでは、2つのモデルは同じプール式クロスプロンプト合意(中間カッパ0.69と0.68)に達し、より大きなモデルはいくつかのフィールドで合意を掲げ、効果がないというよりも、他のフィールドで再配布する。
スキーマをバイナリにまとめることによって、クロスプロンプトの不一致の大部分を解消する。
マルチクラスのエントリー分類では、モデルの変更はすべての音符のほぼ半分で支配的なタグを再割り当てし、プロンプトのフレーズの変更はおよそ8分の1で再割り当てし、大きなモデルは残りのキャッチオールカテゴリー(44%から26%)でははるかに質量を減らしている。
これらのパターンは, 集団規模の展開において, 抽出再現性を監査するための再利用可能な手法によって同定された, 多クラス分類における即時的な表現よりも, 非可逆なサイレンス軸に集結した不一致源とモデル優位性を示す。
関連論文リスト
- From Consensus to Split Decisions: ABC-Stratified Sentiment in Holocaust Oral Histories [0.2538209532048867]
極性検出はドメインシフトによってかなり困難になる。
本稿では,長期ホロコースト口腔組織における感情分類器のコーパススケール診断について述べる。
論文 参考訳(メタデータ) (2026-03-30T18:44:22Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - HADSF: Aspect Aware Semantic Control for Explainable Recommendation [4.75127493865044]
大規模言語モデル(LLM)の最近の進歩は、推薦システムに対してより効果的な情報抽出を約束している。
本稿では,適応選択によるコンパクトなコーパスレベルのアスペクトボキャブラリを誘導し,構造化アスペクトオピニオン三重項のボキャブラリ誘導,明示的に制約された抽出を行う2段階アプローチを提案する。
1.5B-70Bパラメータにまたがる約300万のレビューに関する実験では、標準評価予測器に統合された場合、HADSFは予測エラーを一貫して減少させる。
論文 参考訳(メタデータ) (2025-10-30T20:49:33Z) - What Does It Take to Build a Performant Selective Classifier? [30.90225954725644]
ベイズノイズ,近似誤差,ランキング誤差,統計的ノイズ,実装またはシフト誘起スラックについて検討した。
我々は,合成2モードデータと実世界のビジョンと言語ベンチマークを用いて,その分解を検証した。
その結果, (i)ベイズノイズとモデル容量の制限は, 実質的なギャップを考慮し, (ii) よりリッチで特徴を考慮したキャリブレータのみを有意義に改善し, (iii) データシフトは, 分散的に堅牢なトレーニングを必要とするスラックを別々に導入することを確認した。
論文 参考訳(メタデータ) (2025-10-23T05:48:40Z) - Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。
LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。
また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文 参考訳(メタデータ) (2025-04-01T06:58:15Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。