Fugu-MT 論文翻訳(概要): Reverse Probing: Supervised Token-level Uncertainty Quantification for Large Language Models in Clinical Text

論文の概要: Reverse Probing: Supervised Token-level Uncertainty Quantification for Large Language Models in Clinical Text

arxiv url: http://arxiv.org/abs/2605.28740v1
Date: Wed, 27 May 2026 17:01:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:56.235133
Title: Reverse Probing: Supervised Token-level Uncertainty Quantification for Large Language Models in Clinical Text
Title（参考訳）: Reverse Probing:臨床用テキストにおける大規模言語モデルのトークンレベルの不確実性定量化
Authors: Bushi Xiao, Sarvesh Soni, Daisy Zhe Wang,
Abstract要約: 本稿では,既存のラベル付き要約から直接トークンレベルの不確実性を推定するReverse Probingを提案する。 Reverse Probingは、テキストをモデルの内部状態へのプローブとして扱い、内部アクティベーションの4つのカテゴリから不確実な信号を抽出する。専門家による2つの臨床データセットで評価し、すべての指標で8つの適応ベースラインを上回りました。
参考スコア（独自算出の注目度）: 4.737321357710923
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models are increasingly deployed for clinical text, ensuring they can reliably signal their own uncertainty becomes critical. Most existing uncertainty quantification (UQ) methods are designed for open-domain generation and cannot localize uncertainty at the token or span level in long clinical text. We propose Reverse Probing, the first UQ framework specialized for clinical summarization, which estimates token-level uncertainty directly from pre-existing labeled summaries. Rather than sampling new outputs, Reverse Probing treats the text as a probe into the model's internal state, extracting uncertainty signals from four categories of internal activations. We evaluate on two expert-annotated clinical datasets and outperform eight adapted baselines on all metrics, achieving up to 4 times higher AUPRC while reducing inference time and computational costs. Feature analysis reveals that delta energy and neighborhood context are the most consistent predictors across all models. This study offers interpretable insights into how models internally respond to unsupported clinical content.
Abstract（参考訳）: 大きな言語モデルが臨床用テキストにますます導入されるにつれて、彼らの不確実性を確実に示せることが重要になる。既存の不確実性定量化(UQ)法の多くは、オープンドメイン生成のために設計されており、長期臨床テキストにおけるトークンやスパンレベルでの不確実性をローカライズできない。本稿では,既存のラベル付き要約から直接トークンレベルの不確実性を推定する,臨床要約に特化した最初のUQフレームワークであるReverse Probingを提案する。新しい出力をサンプリングする代わりに、Reverse Probingは、テキストをモデルの内部状態へのプローブとして扱い、内部アクティベーションの4つのカテゴリから不確実な信号を抽出する。専門家による2つの臨床データセットで評価し、すべての指標で8つの適応ベースラインを上回り、推定時間と計算コストを抑えながら最大4倍のAUPRCを実現した。特徴解析により、デルタエネルギーと近傍コンテキストが全てのモデルで最も一貫した予測因子であることが分かる。本研究は、モデルが治療中の臨床コンテンツにどのように反応するかについて、解釈可能な知見を提供する。

関連論文リスト

ProtoMedAgent: Multimodal Clinical Interpretability via Privacy-Aware Agentic Workflows [7.27267618572654]
ProtoMedAgentは、反復的なゼロ段階のテスト時間最適化問題としてマルチモーダルな臨床報告を定式化する。オンライン生成は、厳密な集合論微分と反射的スクリーブ・クリティカルループによって制限される。 ProtoMedAgentは91.2%の比較集合Fithfulnessを実現し、標準RAG(46.2%)を根本的に上回る
論文参考訳（メタデータ） (2026-05-13T20:57:37Z)
Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores [5.004814662623874]
大規模言語モデル(LLM)は、臨床推論やリスクアセスメントにますます活用されている。しかし、精神医学のような批判的・不決定的な領域における解釈的信頼性は未だ不明である。本稿では, インシデント設計の影響に関する評価を構造化することで, 下流LLMタスクの信頼性監査を行う手法を提案する。
論文参考訳（メタデータ） (2026-04-23T20:42:22Z)
Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。 Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文参考訳（メタデータ） (2026-03-23T05:46:45Z)
From Generative Modeling to Clinical Classification: A GPT-Based Architecture for EHR Notes [0.0]
本研究は臨床テキスト分類のためのGPTアーキテクチャを提案する。すべてのモデルパラメータを更新する代わりに、GPT-2のバックボーンの大部分は凍結されている。提案手法はMIMIC-IV-Noteデータセットからの放射線学報告に基づいて評価する。
論文参考訳（メタデータ） (2026-01-29T16:33:47Z)
AUTOCT: Automating Interpretable Clinical Trial Prediction with LLM Agents [47.640779069547534]
AutoCTは、大規模言語モデルの推論能力と古典的な機械学習の説明可能性を組み合わせた、新しいフレームワークである。臨床治験予測タスクにおいて, AutoCT は SOTA 法と同等以上の性能を示した。
論文参考訳（メタデータ） (2025-06-04T11:50:55Z)
Interpretability of Uncertainty: Exploring Cortical Lesion Segmentation in Multiple Sclerosis [33.91263917157504]
不確実性定量化(UQ)は人工知能システムの信頼性を評価する上で重要である。本研究では,磁気共鳴画像における焦点病変分割のための深層学習モデルにおけるインスタンス単位の不確実性値の解釈可能性について検討する。
論文参考訳（メタデータ） (2024-07-08T09:13:30Z)
SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。 6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Clinical Outcome Prediction from Admission Notes using Self-Supervised Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文参考訳（メタデータ） (2021-02-08T10:26:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。