論文の概要: Multi-LLM Adaptive Conformal Inference for Reliable LLM Responses
- arxiv url: http://arxiv.org/abs/2602.01285v1
- Date: Sun, 01 Feb 2026 15:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.695981
- Title: Multi-LLM Adaptive Conformal Inference for Reliable LLM Responses
- Title(参考訳): 信頼性LLM応答に対するマルチLLM適応コンフォーマル推論
- Authors: Kangjun Noh, Seongchan Lee, Ilmun Kim, Kyungwoo Song,
- Abstract要約: 我々は,主張レベルスコアの積として事実性をモデル化し,乗法的フィルタリング設定における共形推論を再構成する。
我々の手法であるMulti-LLM Adaptive Conformal Inference (MACI)はアンサンブルを利用してより正確な事実度スコアを生成する。
実験の結果,MACIはベースラインよりも保持率と時間コストが著しく高く,ユーザ指定のカバレッジを一貫して達成していることがわかった。
- 参考スコア(独自算出の注目度): 18.60553322553765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring factuality is essential for the safe use of Large Language Models (LLMs) in high-stakes domains such as medicine and law. Conformal inference provides distribution-free guarantees, but existing approaches are either overly conservative, discarding many true-claims, or rely on adaptive error rates and simple linear models that fail to capture complex group structures. To address these challenges, we reformulate conformal inference in a multiplicative filtering setting, modeling factuality as a product of claim-level scores. Our method, Multi-LLM Adaptive Conformal Inference (MACI), leverages ensembles to produce more accurate factuality-scores, which in our experiments led to higher retention, while validity is preserved through group-conditional calibration. Experiments show that MACI consistently achieves user-specified coverage with substantially higher retention and lower time cost than baselines. Our repository is available at https://github.com/MLAI-Yonsei/MACI
- Abstract(参考訳): 医学や法律などの高度な分野において、LLM(Large Language Models)を安全に活用するためには、事実性の確保が不可欠である。
共形推論は分布のない保証を提供するが、既存のアプローチは過度に保守的であり、多くの真の主張を捨てるか、適応誤差率と複雑な群構造を捉えない単純な線形モデルに依存している。
これらの課題に対処するため、我々は、クレームレベルスコアの積として事実性をモデル化し、乗法的フィルタリング設定における共形推論を再構成する。
提案手法であるMulti-LLM Adaptive Conformal Inference (MACI) はアンサンブルを利用してより正確な事実度スコアを生成する。
実験の結果,MACIはベースラインよりも保持率と時間コストが著しく高く,ユーザ指定のカバレッジを一貫して達成していることがわかった。
私たちのリポジトリはhttps://github.com/MLAI-Yonsei/MACIで利用可能です。
関連論文リスト
- Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - MMDCP: A Distribution-free Approach to Outlier Detection and Classification with Coverage Guarantees and SCW-FDR Control [6.429952624399788]
ラベルシフト下でのマルチクラス分類と外乱検出のための統一的なフレームワークを提案する。
修正マハラノビス距離等角予測(MMDCP)は、クラス固有の距離測度と完全な等角予測を組み合わせてスコア関数を構築する。
オラクルと経験的コンフォーマルな$p$-値のギャップを初めて理論的に評価し、クラスワイド偽発見率(CW-FDR)の有効なカバレッジと効果的な制御を確実にする。
論文 参考訳(メタデータ) (2025-11-15T03:48:44Z) - Robust Uncertainty Quantification for Self-Evolving Large Language Models via Continual Domain Pretraining [7.344577590113121]
Conformal Prediction (CP)は、大きな言語モデルに対して正確性を保証することを約束している。
適応的な拒絶と非交換可能なCPフレームワークを導入する。
本フレームワークは,CDPシナリオ下でのCPの有効性と信頼性を両立させる。
論文 参考訳(メタデータ) (2025-10-27T02:15:51Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。
本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文 参考訳(メタデータ) (2025-01-29T23:55:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Multicalibration for Confidence Scoring in LLMs [6.948522445499497]
本稿では,大規模言語モデル(LLM)が生成する出力に対して,解釈可能かつ信頼性の高い信頼スコアを得るために,"マルチバリデーション(multicalibration)"を用いることを提案する。
埋め込み空間内のクラスタリングと「自己アノテーション」という2つの手法を用いて、正しさの確率と相関するプロンプト/コンプリートペアのグルーピングを形成する方法を示す。
我々は,従来の手法と比較して,キャリブレーションと精度の両方の細かな測定精度を大幅に向上させる信頼性スコアを得る方法を示す。
論文 参考訳(メタデータ) (2024-04-06T17:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。