論文の概要: Energy Landscapes Enable Reliable Abstention in Retrieval-Augmented Large Language Models for Healthcare
- arxiv url: http://arxiv.org/abs/2509.04482v2
- Date: Mon, 08 Sep 2025 14:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.392994
- Title: Energy Landscapes Enable Reliable Abstention in Retrieval-Augmented Large Language Models for Healthcare
- Title(参考訳): 検索型大規模医療用言語モデルにおける信頼性の確保を可能にするエネルギー景観
- Authors: Ravi Shankar, Sheng Wong, Lin Li, Magdalena Bachmann, Alex Silverthorne, Beth Albert, Gabriel Davis Jones,
- Abstract要約: 本稿では,2.6Mのガイドラインに基づく質問の密集したセマンティックコーパス上でスムーズなエネルギー景観を学習するエネルギーベースモデル(EBM)を提案する。
我々はESMをソフトマックスベースラインとk-アネレスト近傍(kNN)密度に対して、容易かつ硬い断面積でベンチマークした。
EBMはセマンティックハードケースにおいて、AUROC 0.961 に対してソフトマックス 0.950 に到達し、FPR@95 (0.235 vs 0.331) を減少させる。
- 参考スコア(独自算出の注目度): 5.606300901080956
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reliable abstention is critical for retrieval-augmented generation (RAG) systems, particularly in safety-critical domains such as women's health, where incorrect answers can lead to harm. We present an energy-based model (EBM) that learns a smooth energy landscape over a dense semantic corpus of 2.6M guideline-derived questions, enabling the system to decide when to generate or abstain. We benchmark the EBM against a calibrated softmax baseline and a k-nearest neighbour (kNN) density heuristic across both easy and hard abstention splits, where hard cases are semantically challenging near-distribution queries. The EBM achieves superior abstention performance abstention on semantically hard cases, reaching AUROC 0.961 versus 0.950 for softmax, while also reducing FPR@95 (0.235 vs 0.331). On easy negatives, performance is comparable across methods, but the EBM's advantage becomes most pronounced in safety-critical hard distributions. A comprehensive ablation with controlled negative sampling and fair data exposure shows that robustness stems primarily from the energy scoring head, while the inclusion or exclusion of specific negative types (hard, easy, mixed) sharpens decision boundaries but is not essential for generalisation to hard cases. These results demonstrate that energy-based abstention scoring offers a more reliable confidence signal than probability-based softmax confidence, providing a scalable and interpretable foundation for safe RAG systems.
- Abstract(参考訳): 信頼性の欠如は、検索強化世代(RAG)システム、特に女性の健康のような安全クリティカルな領域では、誤った回答が害をもたらす可能性がある。
本稿では,2.6Mのガイドラインに基づく質問の密集したセマンティックコーパス上で,スムーズなエネルギー景観を学習するエネルギーベースモデルを提案する。
難易度, 難易度, 難易度, 難易度, 難易度, 難易度, 難易度を比較検討した結果, 難易度, 難易度, 難易度, 難易度, 難易度, 難易度, 難易度, 難易度, 難易度, 難易度, 難易度を比較検討した。
EBMはセマンティックハードケースに対して優れた禁忌性能を保ち、AUROC 0.961 に対してソフトマックス 0.950 に到達し、FPR@95 (0.235 vs 0.331) を減少させる。
簡単な負では、性能はメソッド間で比較できるが、ESMの利点は安全クリティカルなハードディストリビューションで最も顕著になる。
制御された負のサンプリングと公正なデータ露光による包括的なアブレーションは、ロバスト性は主にエネルギースコアリングヘッドに由来するが、特定の負のタイプ(ハード、簡単、混合)の包含または排除は決定境界を鋭くするが、ハードケースへの一般化には必須ではないことを示している。
これらの結果から,エネルギーベースの禁制スコアリングは,確率ベースのソフトマックスの信頼性よりも信頼性の高い信号を提供し,安全なRAGシステムのためのスケーラブルで解釈可能な基盤を提供することが示された。
関連論文リスト
- ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Theoretical Insights in Model Inversion Robustness and Conditional Entropy Maximization for Collaborative Inference Systems [89.35169042718739]
協調推論により、クラウドサーバに機密データを公開することなく、エンドユーザは強力なディープラーニングモデルを活用することができる。
近年の研究では、これらの中間機能は、情報が漏洩し、生データをモデル反転攻撃(MIA)によって再構築できるため、プライバシーを十分に保持できないことが判明している。
この研究はまず、与えられた中間特徴の入力の条件エントロピーが、任意のMIAの下での再構成平均二乗誤差(MSE)の保証された下界を与えることを理論的に証明する。
そして、ガウス混合推定に基づいて、この条件付きエントロピーを有界化するための微分可能かつ可解な尺度を導出し、逆ロバスト性を高める条件付きエントロピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:21Z) - Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception [0.4124847249415279]
安全クリティカルな認識システムは、安全を維持するために確実な不確実性定量化と原則化された禁制機構を必要とする。
本稿では,統計的に保証された不確実性推定を提供するとともに,リスクの高いシナリオにおいて選択的な予測を可能にする,新しいデュアルスレッド整合化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T04:45:31Z) - Detecting Brittle Decisions for Free: Leveraging Margin Consistency in Deep Robust Classifiers [9.147975682184528]
ディープラーニングモデルの意思決定は、知覚できない摂動に敏感である。
敵攻撃を使用してインスタンス単位でモデルの脆弱性を評価することは、リアルタイムのデプロイメントシナリオには計算集約的であり、適さない。
本稿では,脆弱な試料の効率的な検出のためのマージン整合性の概念を紹介する。
論文 参考訳(メタデータ) (2024-06-26T16:00:35Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z) - Understanding Softmax Confidence and Uncertainty [95.71801498763216]
トレーニング分布から遠く離れたデータで予測する場合、ニューラルネットワークは不確実性を高めることができない、という指摘がしばしばある。
しかし、不確実性のプロキシとしてソフトマックスの信頼性を生かして、このためにのみテストするタスクにおいて、控えめな成功を達成します。
本稿では,この矛盾を解明し,ソフトマックスの信頼度と不確実性との相関を助長する2つの暗黙バイアスを同定する。
論文 参考訳(メタデータ) (2021-06-09T10:37:29Z) - Energy-based Out-of-distribution Detection [24.320646820385065]
エネルギースコアを用いたOOD検出のための統合フレームワークを提案する。
エネルギースコアは従来の手法よりも分布内と分布外を区別した方がよいことを示す。
エネルギーベースのトレーニングでは、我々の手法は一般的なベンチマークで最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-10-08T04:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。