論文の概要: Can Linear Probes Measure LLM Uncertainty?
- arxiv url: http://arxiv.org/abs/2510.04108v1
- Date: Sun, 05 Oct 2025 09:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.460747
- Title: Can Linear Probes Measure LLM Uncertainty?
- Title(参考訳): 線形プローブはLDMの不確かさを計測できるのか?
- Authors: Ramzi Dakhmouche, Adrien Letellier, Hossein Gorji,
- Abstract要約: 不確実性定量化(UQ)は、自動意思決定などにおける大規模言語モデル(LLM)の信頼性向上のための重要な側面である。
ベイズ統計による原理的アプローチをとると、最も単純なモデル、すなわち線形回帰を利用するにもかかわらず、性能が向上することを示す。
分散特性の疎結合を同定することにより, LLMのグローバル不確実性レベルを推定し, 効率的なUQ手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective Uncertainty Quantification (UQ) represents a key aspect for reliable deployment of Large Language Models (LLMs) in automated decision-making and beyond. Yet, for LLM generation with multiple choice structure, the state-of-the-art in UQ is still dominated by the naive baseline given by the maximum softmax score. To address this shortcoming, we demonstrate that taking a principled approach via Bayesian statistics leads to improved performance despite leveraging the simplest possible model, namely linear regression. More precisely, we propose to train multiple Bayesian linear models, each predicting the output of a layer given the output of the previous one. Based on the obtained layer-level posterior distributions, we infer the global uncertainty level of the LLM by identifying a sparse combination of distributional features, leading to an efficient UQ scheme. Numerical experiments on various LLMs show consistent improvement over state-of-the-art baselines.
- Abstract(参考訳): 有効不確実性定量化(UQ)は、自動意思決定などにおいて、LLM(Large Language Models)の信頼性の高いデプロイのための重要な側面である。
しかし、複数の選択構造を持つLLM生成では、UQの最先端は依然として最大ソフトマックススコアによって与えられる単純基線に支配されている。
この欠点に対処するために、ベイズ統計による原理的アプローチをとると、最も単純なモデル、すなわち線形回帰を利用するにもかかわらず、性能が向上することを示した。
より正確には、複数のベイズ線形モデルを訓練することを提案し、それぞれが前のベイズの出力を与えられた層の出力を予測する。
得られた層レベルの後部分布に基づいて,分布特性の疎結合を同定し,LLMのグローバル不確実性レベルを推定し,効率的なUQ手法を提案する。
各種LLMの数値実験により,最先端のベースラインよりも一貫した改善が見られた。
関連論文リスト
- LLM-BI: Towards Fully Automated Bayesian Inference with Large Language Models [0.0]
本稿では,Large Language Model (LLM) を用いた事前分布と可能性の仕様の自動化の実現可能性について検討する。
概念実証として、ベイズ線形回帰に着目した2つの実験を示す。
ベイズモデルにおいて,LLMが重要なステップを自動生成する可能性を検証した。
論文 参考訳(メタデータ) (2025-08-07T00:00:59Z) - Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文 参考訳(メタデータ) (2025-02-20T10:25:13Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。