論文の概要: Stability-Aware Prompt Optimization for Clinical Data Abstraction
- arxiv url: http://arxiv.org/abs/2601.22373v1
- Date: Thu, 29 Jan 2026 22:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.101544
- Title: Stability-Aware Prompt Optimization for Clinical Data Abstraction
- Title(参考訳): 臨床データ抽象化のための安定性を考慮したプロンプト最適化
- Authors: Arinbjörn Kolbeinsson, Daniel Timbie, Sajjan Narsinghani, Sanjay Hariharan,
- Abstract要約: 臨床抽象化に使用される大規模な言語モデルは、即興の言葉遣いに敏感である。
我々は、フリップレートによる迅速な感度を測定し、それをキャリブレーションと選択的予測に関連付ける。
本稿では,精度と安定性を両立させる2目的のプロンプト最適化ループを提案する。
- 参考スコア(独自算出の注目度): 0.6401581119643504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models used for clinical abstraction are sensitive to prompt wording, yet most work treats prompts as fixed and studies uncertainty in isolation. We argue these should be treated jointly. Across two clinical tasks (MedAlign applicability/correctness and MS subtype abstraction) and multiple open and proprietary models, we measure prompt sensitivity via flip rates and relate it to calibration and selective prediction. We find that higher accuracy does not guarantee prompt stability, and that models can appear well-calibrated yet remain fragile to paraphrases. We propose a dual-objective prompt optimization loop that jointly targets accuracy and stability, showing that explicitly including a stability term reduces flip rates across tasks and models, sometimes at modest accuracy cost. Our results suggest prompt sensitivity should be an explicit objective when validating clinical LLM systems.
- Abstract(参考訳): 臨床抽象化に使用される大きな言語モデルは、単語の入力に敏感であるが、ほとんどの研究は、固定されたものとしてプロンプトを扱い、孤立した状態における不確実性を研究する。
これらは共同で扱うべきだと我々は主張する。
2つの臨床課題(MedAlignapplicability/correctness と MS subtype abstract )と複数のオープンおよびプロプライエタリなモデルにおいて、フリップレートによる迅速な感度を測定し、校正と選択的予測に関連付ける。
高い精度は即時安定性を保証せず、モデルが十分に校正されているように見えるが、パラフレーズに対して脆弱であることを示す。
本稿では,安定項を明示的に含むことによって,タスクやモデル間のフリップ率を低減し,時には最小の精度で,精度と安定性を目標とした2目的のプロンプト最適化ループを提案する。
以上より, 臨床LSMシステムを検証する際には, 即時感度が明確な目的であることが示唆された。
関連論文リスト
- Intervention Efficiency and Perturbation Validation Framework: Capacity-Aware and Robust Clinical Model Selection under the Rashomon Effect [8.16102315566872]
同等のパフォーマンスを持つ複数のモデルの共存は、信頼できるデプロイメントと評価に根本的な課題をもたらします。
我々は,頑健なモデルアセスメントと選択のための2つの補完的ツールを提案する: 介入効率(IE)と摂動検証フレームワーク(PVF)。
IEはキャパシティを意識したメトリクスであり、限られた介入しか実現できない場合、モデルが実行可能な真の正をいかに効率的に識別するかを定量化する。
PVFは、データ摂動下でのモデルの安定性を評価するための構造化されたアプローチを導入し、ノイズやシフトした検証セット間で性能が最も不変なモデルを特定する。
論文 参考訳(メタデータ) (2025-11-18T10:21:07Z) - Reasoning's Razor: Reasoning Improves Accuracy but Can Hurt Recall at Critical Operating Points in Safety and Hallucination Detection [21.190105743961798]
推論は大規模言語モデル(LLM)の中心パラダイムとなっている。
厳密な低偽陽性率体制下での分類タスクの推論に関する最初の体系的研究について述べる。
思考(推論強化)生成は全体的な精度を向上するが、実用に不可欠な低FPRしきい値では性能が低下する。
論文 参考訳(メタデータ) (2025-10-23T23:23:36Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Decoupling Clinical and Class-Agnostic Features for Reliable Few-Shot Adaptation under Shift [12.373281238541296]
医療ビジョン言語モデル(VLM)は、臨床診断支援を約束するが、分布シフトによる信頼性は、安全なデプロイメントにとって大きな関心事である。
そこで我々はDRiFtを提案する。DRiFtは機能分離フレームワークで、臨床的に関連する信号をタスク非依存のノイズから明確に分離する。
提案手法は,従来のプロンプトベースの手法に比べて,Top-1精度+11.4%,Macro-F1+3.3%向上する。
論文 参考訳(メタデータ) (2025-09-11T12:26:57Z) - Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。
本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。
その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-27T16:48:53Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。