論文の概要: Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification
- arxiv url: http://arxiv.org/abs/2603.02798v1
- Date: Tue, 03 Mar 2026 09:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.737048
- Title: Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification
- Title(参考訳): 高感度エージェント検証のためのガイドライン付きエビデンス累積
- Authors: Yichi Zhang, Nabeel Seedat, Yinpeng Dong, Peng Cui, Jun Zhu, Mihaela van de Schaar,
- Abstract要約: 既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
- 参考スコア(独自算出の注目度): 60.18369393468405
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As LLM-powered agents have been used for high-stakes decision-making, such as clinical diagnosis, it becomes critical to develop reliable verification of their decisions to facilitate trustworthy deployment. Yet, existing verifiers usually underperform owing to a lack of domain knowledge and limited calibration. To address this, we establish GLEAN, an agent verification framework with Guideline-grounded Evidence Accumulation that compiles expert-curated protocols into trajectory-informed, well-calibrated correctness signals. GLEAN evaluates the step-wise alignment with domain guidelines and aggregates multi-guideline ratings into surrogate features, which are accumulated along the trajectory and calibrated into correctness probabilities using Bayesian logistic regression. Moreover, the estimated uncertainty triggers active verification, which selectively collects additional evidence for uncertain cases via expanding guideline coverage and performing differential checks. We empirically validate GLEAN with agentic clinical diagnosis across three diseases from the MIMIC-IV dataset, surpassing the best baseline by 12% in AUROC and 50% in Brier score reduction, which confirms the effectiveness in both discrimination and calibration. In addition, the expert study with clinicians recognizes GLEAN's utility in practice.
- Abstract(参考訳): LLMを駆使した薬剤は、臨床診断などの高い意思決定に用いられてきたため、信頼性のあるデプロイメントを促進するために、その決定の信頼性検証を開発することが重要である。
しかし、既存の検証はドメイン知識の欠如とキャリブレーションの制限により性能が劣る。
そこで本研究では,専門家が作成したプロトコルをトラジェクティブ・インフォームドでよく校正された正当性信号にコンパイルする,ガイドライン・グラウンドド・エビデンス累積を用いたエージェント検証フレームワークであるGLEANを確立する。
GLEANは、ドメインガイドラインとの段階的整合性を評価し、多導波路評価をサロゲート特徴に集約し、その軌道に沿って蓄積され、ベイジアンロジスティック回帰を用いて正当性確率に校正される。
さらに、推定された不確実性は、ガイドラインカバレッジの拡大や差分チェックの実行を通じて、不確実性に関する追加の証拠を選択的に収集するアクティブな検証をトリガーする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANの有効性を実証的に検証し,AUROCでは12%,Brierスコアでは50%と最高のベースラインを上回り,判別と校正の両面での有効性を確認した。
さらに、臨床医との専門的な研究は、GLEANの実用性を実際に認識している。
関連論文リスト
- Calibrated Bayesian Deep Learning for Explainable Decision Support Systems Based on Medical Imaging [6.826979426009301]
モデルが予測精度と相関する方法で不確実性を定量化し、臨床医がさらなるレビューのために信頼できないアウトプットを特定できることが不可欠である。
本稿では,ベイズ深層学習に基づく一般化可能な確率的最適化フレームワークを提案する。
特に、信頼性・不確実性境界損失(CUB-Loss)が新しく導入され、高い精度の誤差と低い精度の正確な予測に罰則が課せられる。
提案手法は, 肺炎の自動スクリーニング, 糖尿病性網膜症検出, 皮膚病変の同定という, 3つの異なる医用画像処理課題に対して検証された。
論文 参考訳(メタデータ) (2026-02-12T14:03:41Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Scalably Enhancing the Clinical Validity of a Task Benchmark with Physician Oversight [5.202988483354374]
本研究では,複雑なタスクの監視ベンチマークを,定期的に再評価すべき 'in-progress living document'' として提案する。
我々は,先進的なエージェント検証を利用して,MedCalc-Benchを監査し,レラベル化する,系統的,内科的・内科的パイプラインを提案する。
検査の結果,抽出ミス,電卓論理ミスマッチ,臨床曖昧さなどにより,原著ラベルの顕著な部分が医学的根拠の真相から逸脱していることが判明した。
論文 参考訳(メタデータ) (2025-12-22T18:59:34Z) - Leveraging Evidence-Guided LLMs to Enhance Trustworthy Depression Diagnosis [8.935425124628452]
透明性,信頼性,信頼性を高める2段階の診断フレームワークを提案する。
Evidence-Guided Diagnostic Reasoning (EGDR) を導入する。
第2に、生成された診断の事実的精度と論理的整合性を評価するための診断信頼度スコアリング(DCS)モジュールを提案する。
論文 参考訳(メタデータ) (2025-11-22T07:08:23Z) - A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist [1.1731001328350983]
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。
メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE)
以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
論文 参考訳(メタデータ) (2025-10-22T00:15:02Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - MedMMV: A Controllable Multimodal Multi-Agent Framework for Reliable and Verifiable Clinical Reasoning [35.97057940590796]
MedMMV(MedMMV)は,信頼性・信頼性の高い臨床推論のための多エージェントフレームワークである。
6つの医療ベンチマークでは、MedMMVは最大12.7%の精度向上を実現し、さらに重要な点として信頼性の向上が示されている。
論文 参考訳(メタデータ) (2025-09-29T05:51:25Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。