論文の概要: Domain-Shift-Aware Conformal Prediction for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.05566v1
- Date: Tue, 07 Oct 2025 04:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.094664
- Title: Domain-Shift-Aware Conformal Prediction for Large Language Models
- Title(参考訳): ドメインシフトを考慮した大規模言語モデルのコンフォーマル予測
- Authors: Zhexiao Lin, Yuanyuan Li, Neeraj Sarna, Yuanyuan Gao, Michael von Gablenz,
- Abstract要約: ドメインシフト対応コンフォーマル予測(DS-CP)と呼ばれる新しいフレームワークを提案する。
我々のフレームワークは、キャリブレーションサンプルを体系的に再重み付けすることで、ドメインシフト中の大きな言語モデルに整合予測を適用する。
MMLUベンチマークの理論的解析と実験により,提案手法は標準共形予測よりも信頼性の高いカバレッジを提供することが示された。
- 参考スコア(独自算出の注目度): 8.620363085499243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have achieved impressive performance across diverse tasks. However, their tendency to produce overconfident and factually incorrect outputs, known as hallucinations, poses risks in real world applications. Conformal prediction provides finite-sample, distribution-free coverage guarantees, but standard conformal prediction breaks down under domain shift, often leading to under-coverage and unreliable prediction sets. We propose a new framework called Domain-Shift-Aware Conformal Prediction (DS-CP). Our framework adapts conformal prediction to large language models under domain shift, by systematically reweighting calibration samples based on their proximity to the test prompt, thereby preserving validity while enhancing adaptivity. Our theoretical analysis and experiments on the MMLU benchmark demonstrate that the proposed method delivers more reliable coverage than standard conformal prediction, especially under substantial distribution shifts, while maintaining efficiency. This provides a practical step toward trustworthy uncertainty quantification for large language models in real-world deployment.
- Abstract(参考訳): 大規模な言語モデルは、様々なタスクで素晴らしいパフォーマンスを達成した。
しかし、幻覚として知られる過度に信頼され、事実的に誤ったアウトプットを生み出す傾向は、現実世界の応用にリスクをもたらす。
共形予測は有限サンプルで分布のないカバレッジ保証を提供するが、標準共形予測はドメインシフトの下で分解され、しばしば過度にカバーされ、信頼できない予測セットにつながる。
本稿では,新たなフレームワークであるDomain-Shift-Aware Conformal Prediction (DS-CP)を提案する。
本フレームワークは,テストプロンプトに近づいたキャリブレーションサンプルを体系的に再重み付けし,適応性を高めながら有効性を維持することにより,ドメインシフト中の大規模言語モデルに適合予測を適用する。
MMLUベンチマークの理論的解析と実験により,提案手法は標準共形予測よりも信頼性の高いカバレッジを提供することを示した。
これは、現実世界のデプロイメントにおいて、大規模言語モデルの信頼性の高い不確実性定量化に向けた実践的なステップを提供する。
関連論文リスト
- Conformal Prediction Adaptive to Unknown Subpopulation Shifts [11.046912341345294]
コンフォーマル予測は、形式的カバレッジ保証を享受する不確実な定量化を備えたブラックボックス機械学習モデルに広く用いられる。
本研究では,テスト環境がキャリブレーションデータと比較して未知かつ異なるサブポピュレーションの混合を示すサブポピュレーションシフトに対処する。
本研究では,このような変化に対する適応予測を適切に適用し,人口構造に関する明示的な知識を必要とせず,有効なカバレッジを確保する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-05T20:58:39Z) - JAPAN: Joint Adaptive Prediction Areas with Normalising-Flows [7.200880964149064]
コンフォーマル予測は、有限サンプルの妥当性を保証する不確実性定量化のためのモデルに依存しないフレームワークを提供する。
既存のアプローチは通常、幾何的制約を課す残差ベースの整合性スコアに依存する。
本稿では,密度に基づく適合度スコアを用いた共形予測フレームワークである日本(Joint Adaptive Prediction Areas with Normalising-Flows)を紹介する。
論文 参考訳(メタデータ) (2025-05-29T07:34:51Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Beyond Conformal Predictors: Adaptive Conformal Inference with Confidence Predictors [1.3812010983144802]
本研究は,適応整形推論(ACI)の望ましい性質が整形予測器(CP)の使用を必要としないことを示す。
非互換信頼予測器(NCCP)の非交換データに対するACI使用時のCPに対する性能を実証的に検討した。
論文 参考訳(メタデータ) (2024-09-23T21:02:33Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Non-Exchangeable Conformal Language Generation with Nearest Neighbors [12.790082627386482]
非交換性共形核サンプリングは、近接する隣人に基づく生成への共形予測フレームワークの新たな拡張である。
本手法は,任意のモデルに対して,余分なトレーニングを伴わずにポストホックで使用することができ,統計的保証を備えたトークンレベルの校正予測セットを提供する。
論文 参考訳(メタデータ) (2024-02-01T16:04:04Z) - Multiclass Alignment of Confidence and Certainty for Network Calibration [10.15706847741555]
最近の研究では、ディープニューラルネットワーク(DNN)が過信的な予測を行う傾向があることが示されている。
予測平均信頼度と予測確実性(MACC)の多クラスアライメントとして知られる簡易なプラグアンドプレイ補助損失を特徴とする列車時キャリブレーション法を提案する。
本手法は,領域内および領域外両方のキャリブレーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-06T00:56:24Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Federated Conformal Predictors for Distributed Uncertainty
Quantification [83.50609351513886]
コンフォーマル予測は、機械学習において厳密な不確実性定量化を提供するための一般的なパラダイムとして現れつつある。
本稿では,共形予測を連邦学習環境に拡張する。
本稿では、FL設定に適した部分交換可能性の弱い概念を提案し、それをフェデレート・コンフォーマル予測フレームワークの開発に利用する。
論文 参考訳(メタデータ) (2023-05-27T19:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。