論文の概要: UNCERTAINTY-LINE: Length-Invariant Estimation of Uncertainty for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.19060v1
- Date: Sun, 25 May 2025 09:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.876076
- Title: UNCERTAINTY-LINE: Length-Invariant Estimation of Uncertainty for Large Language Models
- Title(参考訳): UNCERTAINTY-LINE:大規模言語モデルにおける不確かさの長不変推定
- Authors: Roman Vashurin, Maiya Goloburda, Preslav Nakov, Maxim Panov,
- Abstract要約: UNCERTAINTY-LINEは、名目上は長さ正規化UQ法よりも一貫して改善されていることを示す。
本手法は, ポストホック, モデル非依存であり, 様々なUQ尺度に適用可能である。
- 参考スコア(独自算出の注目度): 34.52549605613087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become indispensable tools across various applications, making it more important than ever to ensure the quality and the trustworthiness of their outputs. This has led to growing interest in uncertainty quantification (UQ) methods for assessing the reliability of LLM outputs. Many existing UQ techniques rely on token probabilities, which inadvertently introduces a bias with respect to the length of the output. While some methods attempt to account for this, we demonstrate that such biases persist even in length-normalized approaches. To address the problem, here we propose UNCERTAINTY-LINE: (Length-INvariant Estimation), a simple debiasing procedure that regresses uncertainty scores on output length and uses the residuals as corrected, length-invariant estimates. Our method is post-hoc, model-agnostic, and applicable to a range of UQ measures. Through extensive evaluation on machine translation, summarization, and question-answering tasks, we demonstrate that UNCERTAINTY-LINE: consistently improves over even nominally length-normalized UQ methods uncertainty estimates across multiple metrics and models.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なアプリケーションにまたがって欠かせないツールとなり、アウトプットの品質と信頼性を確保することがこれまで以上に重要になっている。
これにより、LCM出力の信頼性を評価するための不確実性定量化(UQ)手法への関心が高まっている。
既存のUQ技術の多くはトークンの確率に依存しており、それは出力の長さに関して不注意にバイアスを生じさせる。
いくつかの手法がこれを考慮しようとするが、そのようなバイアスは長さ正規化アプローチにおいても持続することを示す。
この問題を解決するために,UNCERTAINTY-LINE: (Length-Invariant Estimation)を提案する。
本手法は, ポストホック, モデル非依存であり, 様々なUQ尺度に適用可能である。
機械翻訳,要約,質問応答タスクの広範囲な評価を通じて,UNCERTAINTY-LINE: 名目上は長さ正規化UQ法よりも常に改善されていることを示す。
関連論文リスト
- Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results [10.551985027162576]
提案手法は,特定のUQ法の性能を膨らませることで,UQ評価に偏りが生じることを示す。
語彙ベースと埋め込みベースのメトリクスからLCM-as-a-judgeアプローチまで,7つの正当性関数を評価した。
論文 参考訳(メタデータ) (2025-04-18T13:13:42Z) - Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文 参考訳(メタデータ) (2025-02-20T10:25:13Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.9354890840418]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。
この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - SPUQ: Perturbation-Based Uncertainty Quantification for Large Language
Models [9.817185255633758]
大規模言語モデル(LLM)がますます普及し、顕著なテキスト生成機能を提供している。
プレッシャーの課題は、自信を持って間違った予測をする傾向にある。
本稿では,浮腫とてんかんの両不確実性に対処するために,新しいUQ法を提案する。
その結果,モデルキャリブレーションは大幅に改善し,予測誤差(ECE)は平均50%減少した。
論文 参考訳(メタデータ) (2024-03-04T21:55:22Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。