論文の概要: PSEBench: A Controllable and Verifiable Benchmark for Evaluating LLMs in Patient Safety Event Triage
- arxiv url: http://arxiv.org/abs/2606.05463v1
- Date: Wed, 03 Jun 2026 21:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.611814
- Title: PSEBench: A Controllable and Verifiable Benchmark for Evaluating LLMs in Patient Safety Event Triage
- Title(参考訳): PSEBench: 患者安全イベントトリアージにおけるLCMの評価のための制御可能で検証可能なベンチマーク
- Authors: Keqi Han, Ryan Young, Annabel Strauss, Lindsey Hughes, Katharine M. Nesbitt, Nicole Schueler, Che Ngufor, Carl Yang, Yuan Xue, Zhijun Yin,
- Abstract要約: 患者安全イベントトリアージ(英: patient safety event triage)は、患者安全の専門家が通常手動で行うハイテイクタスクである。
ミネソタ州では29のReportable Adverse Health Eventsでこの方法をインスタンス化しています。
PSEBenchは、エージェント評価環境を備えた5,074ケースのベンチマークである。
- 参考スコア(独自算出の注目度): 11.521711012101102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Patient safety event triage, determining whether a clinical event is reportable under jurisdiction-specific policy, is a high-stakes task typically performed manually by patient safety experts. Although LLMs may support this workflow, reliable evaluation is limited by the lack of benchmarks to capture evidence-grounded policy reasoning, proactive information seeking for incomplete reports, and principled abstention in irreducibly ambiguous cases. We address this gap with a policy-grounded construction methodology centered on the clause card, a structured representation that factorizes regulatory text into auditable decision specifications. Combining clause cards with anchor-driven instantiation and closed-loop verification, our scalable pipeline produces narratives with by-construction ground truth and naturally supports generating missing information and uncertain variants. We instantiate this method on Minnesota's 29 Reportable Adverse Health Events, producing PSEBench, a 5,074-case benchmark with an agentic evaluation environment. Evaluation on 15 representative LLMs reveals consistent capability trends, demonstrates the benchmark's utility, and identifies actionable gaps toward reliable LLM-based patient safety event triage.
- Abstract(参考訳): 患者安全イベントトリアージ(英: patient safety event triage)は、患者安全の専門家が通常手動で行う高精細な作業である。
LLMは、このワークフローをサポートするかもしれないが、証拠を根拠とした政策推論、不完全な報告を求める積極的情報、そして不可解なあいまいなケースにおける原則的棄権を捉えるためのベンチマークが欠如しているため、信頼性の高い評価は限られている。
このギャップを、規制文書を監査可能な決定仕様に分解する構造化表現である、条項カードを中心にした政策基盤構築手法を用いて解決する。
文節カードとアンカー駆動のインスタンス化とクローズドループ検証を組み合わせることで,拡張性のあるパイプラインは,コンストラクションの裏側で物語を生成するとともに,不確実な情報や不確実な変種の生成を自然に支援する。
ミネソタ州の29のReportable Adverse Health Eventsで、エージェント評価環境を備えた5,074ケースのベンチマークであるPSEBenchを生成する。
15の代表的なLCMの評価は、一貫した機能傾向を示し、ベンチマークの有用性を示し、信頼性の高いLCMベースの患者安全イベントトリアージに対する実用的なギャップを特定する。
関連論文リスト
- Steering LLM Viewpoints through Fabricated Evidence Injection [61.22850755490993]
提案手法では,2段階のアタック・フレームワークを導入し,まず構成された有理数で誤解を招く文を再パッケージし,関連する問合せに応答する上で,これらの視点を組み込むことを目標LLMに指示する。
BBQ、ToxiGen、および我々の特別なデータセットの実験により、外部安全分類器を持たない商用LLMは、非常に脆弱であることが判明した。
そこで我々は,複数の防衛戦略について検討し,その中のひとつとして,gpt-oss-safeguardが81%の検知率を達成した。
論文 参考訳(メタデータ) (2026-06-04T14:48:23Z) - Neuro-Symbolic Verification of LLM Outputs for Data-Sensitive Domains (extended preprint) [0.08594140167290099]
本稿では,形式的記号法とニューラルセマンティック解析を組み合わせたハイブリッド検証アーキテクチャを提案する。
出力検証のために、埋め込みに基づく意味的類似性はコンテキスト幻覚を検出する。
評価の結果, 構造体では83%, 意味形成では72%以上の幻覚検出率を示した。
論文 参考訳(メタデータ) (2026-05-26T12:32:17Z) - Anonymous-by-Construction: An LLM-Driven Framework for Privacy-Preserving Text [0.42821598129654453]
テキストを匿名化するLLM駆動置換パイプラインをオンプレミスで開発する。
プライバシー、セマンティックユーティリティ、およびプライバシー下でのトレーサビリティを測定します。
提案手法は,最先端のプライバシ,トピックドリフトの最小化,実効性の向上,トレーニング可能性の低下を実現する。
論文 参考訳(メタデータ) (2026-03-17T23:46:15Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Evaluating Metrics for Safety with LLM-as-Judges [1.93892819796757]
本稿では、多くの自然言語処理タスクから決定論的評価を得ることはできないが、重み付けされたメトリクスのバスケットを採用することで、評価におけるエラーのリスクを低減することができると主張している。
論文 参考訳(メタデータ) (2025-12-17T17:24:49Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation [70.62656296780074]
本稿では,新しいデータ生成法であるAIDSAFE(Agenic Iterative Deliberation for Safety Reasoning)を提案する。
AIDSAFEにおけるデータリファインダーの段階は、反復的、冗長的、詐欺的思考を排除し、高品質なアウトプットを保証する。
本評価は, AIDSAFEによるCoTsが, より優れた政策順守と推論品質を実現することを示すものである。
論文 参考訳(メタデータ) (2025-05-27T21:34:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。