論文の概要: Claim-Selective Certification for High-Risk Medical Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.21949v1
- Date: Thu, 21 May 2026 03:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.516202
- Title: Claim-Selective Certification for High-Risk Medical Retrieval-Augmented Generation
- Title(参考訳): 高リスク医用検索・拡張ジェネレーションのためのクレーム選択認証
- Authors: Shao Kan,
- Abstract要約: 混在した証拠は、ある主張を支持し、別の主張の条件を必要とし、第三の主張に矛盾する可能性がある。
我々は、クレーム選択応答を検証可能なクレームに検証し、回収された証拠に対して評価し、インテントを意識したセレクタによって完全な、部分的、紛争、棄却にマッピングする。
結果として生じるインターフェースは、アクションラベル予測と、混在する証拠の下でのエビデンスリンクされたクレーム選択を分離する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical RAG systems in high-risk QA settings are often evaluated through a single answer-or-abstain decision, but mixed evidence may support one claim, require conditions for another, and contradict a third. We study claim-selective certification: each response is decomposed into verifiable claims, scored against retrieved evidence, and mapped by an intent-aware selector to {full, partial, conflict, abstain}. On the primary weak-label certificate protocol, whose real-source-only dev/test rows cover the naturally occurring non-abstain actions, the full system records UCCR=0.0000, PAU=1.0000, PAU Precision=0.9901, and action accuracy=0.9204 on dev (n=314), and UCCR=0.0000, PAU=0.9967, PAU Precision=0.9739, and action accuracy=0.8997 on test (n=319). UCCR measures unsupported-claim risk within the certificate definition, and a source-missing counterfactual slice evaluates abstain under empty evidence. Shortcut controls quantify the action-label prior explained by source and intent metadata, while source/evidence-novel slices characterize transfer boundaries. The resulting interface separates action-label prediction from evidence-linked claim selection under mixed evidence.
- Abstract(参考訳): リスクの高いQA設定における医学的RAGシステムは、単一の回答または確実な判断によって評価されることが多いが、混在した証拠は、一つの主張を支持し、別の主張を要求し、第三に矛盾する可能性がある。
クレーム選択認証について検討する: 各応答は検証されたクレームに分解され、回収された証拠に対してスコアされ、インテントを意識したセレクタによって、 {full, partial, conflict, abstain} にマッピングされる。
実際のソースのみのdev/test行が自然に発生する動作をカバーしている主要な弱いラベル証明書プロトコルでは、完全なシステムではUCCR=0.0000, PAU=1.0000, PAU Precision=0.9901, and action accuracy=0.9204 on dev (n=314), and UCCR=0.0000, PAU=0.9967, PAU Precision=0.9739, and action accuracy=0.8997 on test (n=319)が記録されている。
UCCRは、証明書の定義の中で保証されていないリスクを計測し、ソースを欠く偽のスライスによって、空の証拠の下での棄権を評価する。
ショートカット制御は、ソースとインテントのメタデータによって事前に説明されたアクションラベルを定量化し、ソース/エビデンス-ノーベルスライスでは転送境界を特徴付ける。
結果として生じるインターフェースは、アクションラベル予測と、混在する証拠の下でのエビデンスリンクされたクレーム選択を分離する。
関連論文リスト
- SURE-RAG: Sufficiency and Uncertainty-Aware Evidence Verification for Selective Retrieval-Augmented Generation [6.604874054866016]
本稿では,証拠満足度がセットレベル特性であることを示す,透過的なアグリゲーションプロトコルSURE-RAGを提案する。
共有ペアレベルのクレームエビデンス検証器は、SURE-RAGが集約した局所的関係分布を解釈可能な応答レベル信号に生成する。
制御されたマルチホップベンチマークであるHotpotQA-RAG v3をアーティファクト・アウェア・プロトコルで評価した。
論文 参考訳(メタデータ) (2026-05-05T09:05:40Z) - Answer Only as Precisely as Justified: Calibrated Claim-Level Specificity Control for Agentic Systems [0.8563354084119061]
クレームレベルの特異性制御はエージェントシステムにとって有用な不確実性インタフェースである。
キャリブレーションされたCSSは、固定されたドラフトのリスクユーティリティトレードオフを改善する。
これらの結果から,クレームレベルの特異性制御はエージェントシステムにとって有用な不確実性インタフェースであることが示唆された。
論文 参考訳(メタデータ) (2026-04-19T15:20:02Z) - Cross-Context Verification: Hierarchical Detection of Benchmark Contamination through Session-Isolated Analysis [0.0]
Cross-Context Verification (CCV) は、N個の独立したセッションで同じベンチマーク問題を解決するブラックボックス方式である。
9つのSWE分岐検証問題(45の試験、クロードオプス4.6、温度0)では、CCVは汚染されたものと真の推論との間の完全な分離を達成する。
論文 参考訳(メタデータ) (2026-03-23T00:18:34Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - CertDW: Towards Certified Dataset Ownership Verification via Conformal Prediction [48.82467166657901]
本稿では,最初の認証データセット透かし(CertDW)とCertDWベースの認証データセットオーナシップ検証手法を提案する。
共形予測に触発されて,主確率 (PP) と透かし頑健性 (WR) の2つの統計指標を導入する。
我々は、不審モデルのWR値が、透かしのないデータセットでトレーニングされた良性モデルのPP値を大幅に上回る場合に、PPとWRの間に証明可能な低い境界が存在することを証明した。
論文 参考訳(メタデータ) (2025-06-16T07:17:23Z) - Towards Evading the Limits of Randomized Smoothing: A Theoretical
Analysis [74.85187027051879]
決定境界を複数の雑音分布で探索することにより,任意の精度で最適な証明を近似できることを示す。
この結果は、分類器固有の認証に関するさらなる研究を後押しし、ランダム化された平滑化が依然として調査に値することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:48:54Z) - Deep Partition Aggregation: Provable Defense against General Poisoning
Attacks [136.79415677706612]
アドリアリン中毒は、分類器の試験時間挙動を損なうために訓練データを歪ませる。
毒殺攻撃に対する2つの新たな防御策を提案する。
DPAは一般的な中毒脅威モデルに対する認証された防御である。
SS-DPAはラベルフリップ攻撃に対する認証された防御である。
論文 参考訳(メタデータ) (2020-06-26T03:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。