論文の概要: Robust Uncertainty Quantification for Self-Evolving Large Language Models via Continual Domain Pretraining
- arxiv url: http://arxiv.org/abs/2510.22931v1
- Date: Mon, 27 Oct 2025 02:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.420612
- Title: Robust Uncertainty Quantification for Self-Evolving Large Language Models via Continual Domain Pretraining
- Title(参考訳): 連続領域事前学習による自己進化型大規模言語モデルのロバスト不確実性定量化
- Authors: Xiaofan Zhou, Lu Cheng,
- Abstract要約: Conformal Prediction (CP)は、大きな言語モデルに対して正確性を保証することを約束している。
適応的な拒絶と非交換可能なCPフレームワークを導入する。
本フレームワークは,CDPシナリオ下でのCPの有効性と信頼性を両立させる。
- 参考スコア(独自算出の注目度): 7.344577590113121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual Learning (CL) is essential for enabling self-evolving large language models (LLMs) to adapt and remain effective amid rapid knowledge growth. Yet, despite its importance, little attention has been given to establishing statistical reliability guarantees for LLMs under CL, particularly in the setting of continual domain pretraining (CDP). Conformal Prediction (CP) has shown promise in offering correctness guarantees for LLMs, but it faces major challenges in CDP: testing data often stems from unknown or shifting domain distributions, under which CP may no longer provide valid guarantees. Moreover, when high coverage is required, CP can yield excessively large prediction sets for unanswerable queries, reducing informativeness. To address these challenges, we introduce an adaptive rejection and non-exchangeable CP framework. Our method first estimates the distribution of questions across domains in the test set using transformer-based clustering, then reweights or resamples the calibration data accordingly. Building on this, adaptive rejection CP allows the LLM to selectively abstain from answering when its confidence or competence shifts significantly. Extensive experiments demonstrate that our framework enhances both the effectiveness and reliability of CP under CDP scenarios. Our code is available at: https://anonymous.4open.science/r/CPCL-8C12/
- Abstract(参考訳): 継続的学習(CL)は,自己進化型大規模言語モデル(LLM)を適応させ,知識の急速な成長の中で有効に維持するために不可欠である。
しかし、その重要性にもかかわらず、CLの下でのLCMの統計的信頼性確保、特に連続領域事前訓練(CDP)の設定にはほとんど注意が払われていない。
コンフォーマル予測(CP)は、LCMの正確性を保証することを約束しているが、CDPでは大きな課題に直面している。
さらに、高いカバレッジが必要な場合、CPは問合せ不能なクエリに対して過剰に大きな予測セットを生成でき、情報性が低下する。
これらの課題に対処するために、適応的な拒絶と非交換可能なCPフレームワークを導入する。
提案手法はまず, 変圧器を用いたクラスタリングを用いて, テストセット内の領域間の質問の分布を推定し, キャリブレーションデータの再重み付けや再サンプリングを行う。
これに基づいて、適応的拒絶CPにより、LCMは、その信頼性や能力が著しく変化した場合に、選択的に回答を控えることができる。
大規模実験により,CDPシナリオ下でのCPの有効性と信頼性が向上することが示された。
私たちのコードは、https://anonymous.4open.science/r/CPCL-8C12/で利用可能です。
関連論文リスト
- COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models [3.958317527488534]
大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
論文 参考訳(メタデータ) (2025-02-08T21:30:41Z) - Prune 'n Predict: Optimizing LLM Decision-making with Conformal Prediction [7.843594672029363]
不正確なアウトプットは、医療や金融といった高リスク領域に重大なリスクをもたらす。
そこで本研究では,可能な選択肢を予測セットに限定することで,質問のEmphconformal revision of question (CROQ)を提案する。
また,CP-OPTを提案する。CP-OPTは,カバー範囲を維持しつつ,設定サイズを最小化するスコアを学習するための最適化フレームワークである。
論文 参考訳(メタデータ) (2024-12-31T17:33:12Z) - Beyond Conformal Predictors: Adaptive Conformal Inference with Confidence Predictors [1.3812010983144802]
本研究は,適応整形推論(ACI)の望ましい性質が整形予測器(CP)の使用を必要としないことを示す。
非互換信頼予測器(NCCP)の非交換データに対するACI使用時のCPに対する性能を実証的に検討した。
論文 参考訳(メタデータ) (2024-09-23T21:02:33Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Learning Optimal Conformal Classifiers [32.68483191509137]
コンフォーマル予測(CP)は、真のクラスを含む信頼セットをユーザが特定した確率で予測するために用いられる。
本稿では, CP を用いた学習において, コンフォーマルラッパーをエンド・ツー・エンドとしたトレーニングモデルを用いて, CP による差別化戦略について検討する。
コンフォメーショントレーニング(ConfTr)は、平均信頼度セットのサイズを小さくすることで、最先端のCP手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-18T11:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。