論文の概要: Is Conformal Factuality for RAG-based LLMs Robust? Novel Metrics and Systematic Insights
- arxiv url: http://arxiv.org/abs/2603.16817v1
- Date: Tue, 17 Mar 2026 17:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.450154
- Title: Is Conformal Factuality for RAG-based LLMs Robust? Novel Metrics and Systematic Insights
- Title(参考訳): RAGをベースとしたLLMにおけるコンフォーマル・ファクタリティはロバストか?
- Authors: Yi Chen, Daiwei Chen, Sukrut Madhav Chikodikar, Caitlyn Heqi Yin, Ramya Korlakai Vinayak,
- Abstract要約: 大規模言語モデル(LLM)は、知識集約型アプリケーションにおける信頼性を制限し、しばしば幻覚を与える。
検索拡張世代(RAG)と共形事実性は、この制限に対処する潜在的方法として浮上している。
我々は,RAGをベースとしたLCMの信頼性と有用性,評価,校正,堅牢性,効率性を解析した。
- 参考スコア(独自算出の注目度): 7.594584500009769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) frequently hallucinate, limiting their reliability in knowledge-intensive applications. Retrieval-augmented generation (RAG) and conformal factuality have emerged as potential ways to address this limitation. While RAG aims to ground responses in retrieved evidence, it provides no statistical guarantee that the final output is correct. Conformal factuality filtering offers distribution-free statistical reliability by scoring and filtering atomic claims using a threshold calibrated on held-out data, however, the informativeness of the final output is not guaranteed. We systematically analyze the reliability and usefulness of conformal factuality for RAG-based LLMs across generation, scoring, calibration, robustness, and efficiency. We propose novel informativeness-aware metrics that better reflect task utility under conformal filtering. Across three benchmarks and multiple model families, we find that (i) conformal filtering suffers from low usefulness at high factuality levels due to vacuous outputs, (ii) conformal factuality guarantee is not robust to distribution shifts and distractors, highlighting the limitation that requires calibration data to closely match deployment conditions, and (iii) lightweight entailment-based verifiers match or outperform LLM-based model confidence scorers while requiring over $100\times$ fewer FLOPs. Overall, our results expose factuality-informativeness trade-offs and fragility of conformal filtering framework under distribution shifts and distractors, highlighting the need for new approaches for reliability with robustness and usefulness as key metrics, and provide actionable guidance for building RAG pipelines that are both reliable and computationally efficient.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識集約型アプリケーションにおける信頼性を制限し、しばしば幻覚を与える。
検索拡張世代(RAG)と共形事実性は、この制限に対処する潜在的方法として浮上している。
RAGは検索された証拠の回答を根拠にすることを目的としているが、最終的な出力が正しいという統計的保証は提供していない。
コンフォーマルな事実性フィルタリングは、ホールドアウトデータに基づいて調整されたしきい値を用いて原子のクレームをスコアリングおよびフィルタリングすることで、分布のない統計的信頼性を提供するが、最終的な出力の伝達性は保証されない。
我々は,RAGをベースとしたLCMの信頼性と有用性,評価,校正,堅牢性,効率性を系統的に分析した。
コンフォメーションフィルタリングにおけるタスクユーティリティをよりよく反映する新しい情報度対応メトリクスを提案する。
3つのベンチマークと複数のモデルファミリーで、私たちはそれを見つけました。
(i)コンフォメーションろ過は、希薄な出力による高実効度で有用性が低い。
二 配当の事実性保証は、配当のずれや気晴らしに頑丈ではなく、配置条件によく合うように校正データを必要とする制限を強調し、
(3)軽量エンタテインメントベースの検証器はLLMベースのモデル信頼スコアラーに適合し、100ドル以上のFLOPを減らした。
本研究の結果は, 分散シフトやイントラクタ下での共形フィルタフレームワークの現実性・非形式性トレードオフと脆弱性を明らかにするとともに, 信頼性と有用性を備えた信頼性のための新たなアプローチの必要性を強調し, 信頼性と計算効率の両立したRAGパイプライン構築のための実用的なガイダンスを提供する。
関連論文リスト
- Multi-LLM Adaptive Conformal Inference for Reliable LLM Responses [18.60553322553765]
我々は,主張レベルスコアの積として事実性をモデル化し,乗法的フィルタリング設定における共形推論を再構成する。
我々の手法であるMulti-LLM Adaptive Conformal Inference (MACI)はアンサンブルを利用してより正確な事実度スコアを生成する。
実験の結果,MACIはベースラインよりも保持率と時間コストが著しく高く,ユーザ指定のカバレッジを一貫して達成していることがわかった。
論文 参考訳(メタデータ) (2026-02-01T15:34:45Z) - MARS: Unleashing the Power of Speculative Decoding via Margin-Aware Verification [7.935725883885573]
Speculative Decoding (SD)は、自動回帰型大言語モデル(LLM)推論をデカップリングして高速化する。
対象モデルの局所的決定性に適応する訓練不要でドメインに依存しない検証戦略であるMargin-Aware Speculative Verificationを提案する。
本手法は,目標ロジットから直接測定した決定安定性の検証を行い,厳密な検証が最小限の利益をもたらす場合にのみ拒否を緩和する。
論文 参考訳(メタデータ) (2026-01-21T22:03:06Z) - NAACL: Noise-AwAre Verbal Confidence Calibration for LLMs in RAG Systems [53.52419750390942]
大型言語モデル(LLM)はミッションクリティカルな事実領域で使用される。
LLMのキャリブレーション性能は, ノイズが回復した状況によって低下する。
我々は、ノイズ下での過信を解決するための原則的基盤を提供するため、NAACLルール(Noise-AwAre Confidence CaLibration Rules)を提案する。
論文 参考訳(メタデータ) (2026-01-16T05:38:25Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Principled Context Engineering for RAG: Statistical Guarantees via Conformal Prediction [40.28465841863481]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルにおける現実的な基盤を強化する。
既存の前世代のフィルターは信頼性のスコアに依存しており、保持された証拠に対する統計的制御を提供していない。
本研究では,コンフォメーション予測によるコンテキスト工学の実証を行う。
論文 参考訳(メタデータ) (2025-11-22T04:17:06Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。