論文の概要: Efficient Uncertainty Estimation via Distillation of Bayesian Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11731v2
- Date: Fri, 23 May 2025 18:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.039603
- Title: Efficient Uncertainty Estimation via Distillation of Bayesian Large Language Models
- Title(参考訳): ベイズ大言語モデルの蒸留による効率的な不確かさ推定
- Authors: Harshil Vejendla, Haizhou Shi, Yibin Wang, Tunyu Zhang, Huan Zhang, Hao Wang,
- Abstract要約: 本稿では,不確実性推定のためのテスト時間サンプリングの必要性を解消する可能性を検討する。
既成のベイズ式LLMを非ベイズ式LLMに蒸留し, 予測分布のばらつきを最小限に抑える。
実験により,トレーニングデータにおける不確実性推定能力は,未確認テストデータにうまく一般化できることが実証された。
- 参考スコア(独自算出の注目度): 12.69571386421462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in uncertainty estimation for Large Language Models (LLMs) during downstream adaptation have addressed key challenges of reliability and simplicity. However, existing Bayesian methods typically require multiple sampling iterations during inference, creating significant efficiency issues that limit practical deployment. In this paper, we investigate the possibility of eliminating the need for test-time sampling for LLM uncertainty estimation. Specifically, when given an off-the-shelf Bayesian LLM, we distill its aligned confidence into a non-Bayesian student LLM by minimizing the divergence between their predictive distributions. Unlike typical calibration methods, our distillation is carried out solely on the training dataset without the need of an additional validation dataset. This simple yet effective approach achieves N-times more efficient uncertainty estimation during testing, where N is the number of samples traditionally required by Bayesian LLMs. Our extensive experiments demonstrate that uncertainty estimation capabilities on training data can successfully generalize to unseen test data through our distillation technique, consistently producing results comparable to (or even better than) state-of-the-art Bayesian LLMs.
- Abstract(参考訳): 下流適応における大規模言語モデル(LLM)の不確実性評価の最近の進歩は、信頼性と簡易性の重要な課題に対処している。
しかし、既存のベイズ的手法は、推論中に複数のサンプリング反復を必要とするのが一般的であり、実際の展開を制限する重要な効率上の問題を引き起こす。
本稿では,LLMの不確実性推定におけるテスト時間サンプリングの必要性を解消する可能性について検討する。
具体的には, 既成のベイズ式LLMを与えられた場合, 予測分布のばらつきを最小化して, 非ベイズ型LLMに整列した信頼度を蒸留する。
通常のキャリブレーション法とは異なり, 蒸留は, 追加の検証データセットを必要とせず, トレーニングデータセットのみに行われる。
この単純で効果的なアプローチは、ベイジアン LLM が伝統的に必要とするサンプルの数である試験中の N 時間のより効率的な不確実性推定を実現する。
実験により, 蒸留技術を用いて, 不確実性推定能力の一般化を実現し, ベイズ式LLMに匹敵する結果(あるいはそれ以上)を連続的に生成できることが確認された。
関連論文リスト
- Uncertainty Quantification for LLM-Based Survey Simulations [9.303339416902995]
本研究では,大規模言語モデル(LLM)を用いて質問に対する人間の反応をシミュレートする。
提案手法は,不完全なLLMシミュレーション応答を集団パラメータの信頼セットに変換する。
重要な革新は、シミュレーションされたレスポンスの最適な数を決定することである。
論文 参考訳(メタデータ) (2025-02-25T02:07:29Z) - BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models [13.953203993774233]
大規模言語モデル(LLM)は、しばしば推論中に過剰な自信に悩まされる。
本稿では,LLMパラメータの平均値と共分散値を連続的に調整するアルゴリズムであるバックプロパゲーション(BLoB)によるベイズ低ランク適応を提案する。
その結果,分布内および分布外の両方で評価した場合,BLoBの有効性を一般化と不確実性評価の観点から検証した。
論文 参考訳(メタデータ) (2024-06-17T15:55:38Z) - Self-Knowledge Distillation for Learning Ambiguity [11.755814660833549]
最近の言語モデルは、その正確さを考慮せずに単一のラベルを過度に予測することが多い。
本稿では,ラベル分布をより正確に学習できる新しい自己知識蒸留法を提案する。
本手法を多種多様なNLUベンチマークデータセットで検証し,実験結果から,より優れたラベル分布を生成する上での有効性を実証した。
論文 参考訳(メタデータ) (2024-06-14T05:11:32Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - LTAU-FF: Loss Trajectory Analysis for Uncertainty in Atomistic Force Fields [5.396675151318325]
モデルアンサンブルは、深層学習原子論力場における予測の不確実性を推定するための有効なツールである。
しかし、それらの普及は高い計算コストと過信エラー推定によって妨げられている。
トレーニング中に得られたサンプルごとの誤差の分布を利用して,モデル潜在空間における距離に基づく類似性探索を行うことにより,これらの課題に対処する。
我々の手法はLTAUと呼ばれ、ログ化されたトレーニングエラーを用いて任意のテストポイントに対するエラーの全確率分布関数(PDF)を効率的に推定する。
論文 参考訳(メタデータ) (2024-02-01T18:50:42Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Locally Valid and Discriminative Confidence Intervals for Deep Learning
Models [37.57296694423751]
不確実性情報は有効(保証対象)で差別的(予想されるリスクが高い場合にさらに不確実)でなければならない
既存のベイジアン法の多くは、頻繁なカバレッジ保証がなく、通常モデルのパフォーマンスに影響を与える。
ほぼどんな深層学習モデルに対しても,識別的信頼区間(CI)を構築するための簡易かつ効率的かつ軽量な手法であるLVD(Locally Valid and Discriminative confidence intervals)を提案する。
論文 参考訳(メタデータ) (2021-06-01T04:39:56Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。