論文の概要: A Deployment Audit of Release-Side Risk in Conformal Triage under Prevalence Shift
- arxiv url: http://arxiv.org/abs/2605.20956v1
- Date: Wed, 20 May 2026 09:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.604606
- Title: A Deployment Audit of Release-Side Risk in Conformal Triage under Prevalence Shift
- Title(参考訳): 確率シフト下における等角形トリアージにおけるリリース側リスクの展開監査
- Authors: Chengze Li, Xiao Liu, Hanrong Zhang, Haiyang Peng, Yanghao Ruan, Huanhuan Ma, Chunyu Miao, Qichao Zhou, Xiangrong Qi, Philip Yu,
- Abstract要約: コンフォーマルトリアージ(Conformal triage)は、予測スコアを、ケースを解放するか、緊急の注意を喚起するか、あるいは人間のレビューに延期するデプロイメントアクションに変換する。
頻度シフトの下では、通常の限界カバレッジと人間レビュー率の要約は、対象イベントを真に経験した患者がレビューなしで解放されるかどうかという安全クリティカルな疑問を見逃す可能性がある。
リリースサイドコンフォメーショントリアージのためのリーク対応デプロイメント監査を導入する。
- 参考スコア(独自算出の注目度): 9.95084723887109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conformal triage converts predictive scores into deployment actions that either release a case, flag it for urgent attention, or defer it to human review. Under prevalence shift, however, the usual summaries of marginal coverage and human-review rate can miss the safety-critical question of whether patients who truly experience the target event are released without review. To address this gap, we introduce a leakage-aware deployment audit for release-side conformal triage. It first assigns target subjects to three non-overlapping roles: prevalence correction, conformal calibration, and held-out release-safety evaluation. This separation then lets the audit evaluate release directly: how many event-positive patients are cleared without review, whether the pilot has enough event labels for calibration, and how the safety-review trade-off shifts. Applying this audit to a retrospective NSCLC pilot shows why lower review can be misleading: after prevalence correction, the pooled conformal branch lowers review by releasing more patients, some of whom are event-positive. Within the audit, the classwise branch acts as a scarcity diagnostic: the pilot has too few event labels to certify safe low-review release.
- Abstract(参考訳): コンフォーマルトリアージ(Conformal triage)は、予測スコアを、ケースを解放するか、緊急の注意を喚起するか、あるいは人間のレビューに延期するデプロイメントアクションに変換する。
しかし、有病率シフトの下では、限界範囲のカバレッジと人的レビュー率の通常の要約は、真に対象イベントを経験した患者がレビューなしで解放されるかどうかという安全クリティカルな疑問を見逃す可能性がある。
このギャップに対処するために、リリースサイドのコンフォメーショントリアージのためのリーク対応デプロイメント監査を導入する。
まず、対象の被験者を3つの重複しない役割に割り当てる: 有病率補正、コンフォーマルキャリブレーション、リリースセーフティ評価。
この分離により、監査担当者は、イベント陽性患者の数、パイロットがキャリブレーションに十分なイベントラベルを持っているかどうか、安全とレビューのトレードオフがどのように変化するか、といった、直接のリリースを評価することができる。
この監査を振り返りのNSCLCパイロットに適用すると、低いレビューが誤解を招く可能性があることが分かる。
監査内では、クラスワイドブランチが不足診断として機能する。パイロットには安全な低レビューリリースを認定するイベントラベルが少なすぎる。
関連論文リスト
- Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges [26.595399077062638]
LLM-as-a-Judgeパイプラインは、エージェント安全性のデファクト評価器となっている。
既存のベンチマークでは、評定がエージェントの行動に依存するか、それとも単に評価方針がどう語られるかをチェックすることなく、その評定を根底からのプロキシとして扱う。
我々は、証明された等価な書き換えの下でのルーブリック・セマンティック不変性、意図的な厳密なシフトの下でのルーブリック・スレッショルド不変性、曖昧さを意識したキャリブレーションの3つの検証可能な原則として運用する。
論文 参考訳(メタデータ) (2026-05-07T12:49:09Z) - Sum-of-Checks: Structured Reasoning for Surgical Safety with Large Vision-Language Models [20.182365299103484]
安全基準の臨界ビューを専門家定義の推論チェックに分解するフレームワークであるSum-of-Checksを紹介する。
3つのフロンティアLVLMを用いてEndoscapes2023ベンチマークを評価し,ダイレクトプロンプト,チェーンオブ思考,サブクエクションの分解と比較した。
論文 参考訳(メタデータ) (2026-04-24T02:07:23Z) - What Makes a Good AI Review? Concern-Level Diagnostics for AI Peer Review [6.59569431190247]
本稿では,AIレビューを判断レベルでのみ評価するのではなく,関心レベルで評価する診断フレームワークを提案する。
本稿では,二項精度から問題検出,判定・階層化動作,判断・認識の校正,帰属・認識の分解に移行した評価ラグを導出する。
論文 参考訳(メタデータ) (2026-04-21T21:16:59Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - Reasoning-Enhanced Rare-Event Prediction with Balanced Outcome Correction [45.88028371034407]
本稿では,予測のためのLPCORP(Low-Prevalence CORrector for Prediction)*を提案する。
医療・消費者サービス分野における実世界のデータセット上でLPCORPを評価する。
論文 参考訳(メタデータ) (2026-01-23T02:34:29Z) - Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [58.39520480675366]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。