Fugu-MT 論文翻訳(概要): UNCERTAINTY-LINE: Length-Invariant Estimation of Uncertainty for Large Language Models

論文の概要: UNCERTAINTY-LINE: Length-Invariant Estimation of Uncertainty for Large Language Models

arxiv url: http://arxiv.org/abs/2505.19060v1
Date: Sun, 25 May 2025 09:30:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.876076
Title: UNCERTAINTY-LINE: Length-Invariant Estimation of Uncertainty for Large Language Models
Title（参考訳）: UNCERTAINTY-LINE:大規模言語モデルにおける不確かさの長不変推定
Authors: Roman Vashurin, Maiya Goloburda, Preslav Nakov, Maxim Panov,
Abstract要約: UNCERTAINTY-LINEは、名目上は長さ正規化UQ法よりも一貫して改善されていることを示す。本手法は, ポストホック, モデル非依存であり, 様々なUQ尺度に適用可能である。
参考スコア（独自算出の注目度）: 34.52549605613087
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have become indispensable tools across various applications, making it more important than ever to ensure the quality and the trustworthiness of their outputs. This has led to growing interest in uncertainty quantification (UQ) methods for assessing the reliability of LLM outputs. Many existing UQ techniques rely on token probabilities, which inadvertently introduces a bias with respect to the length of the output. While some methods attempt to account for this, we demonstrate that such biases persist even in length-normalized approaches. To address the problem, here we propose UNCERTAINTY-LINE: (Length-INvariant Estimation), a simple debiasing procedure that regresses uncertainty scores on output length and uses the residuals as corrected, length-invariant estimates. Our method is post-hoc, model-agnostic, and applicable to a range of UQ measures. Through extensive evaluation on machine translation, summarization, and question-answering tasks, we demonstrate that UNCERTAINTY-LINE: consistently improves over even nominally length-normalized UQ methods uncertainty estimates across multiple metrics and models.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々なアプリケーションにまたがって欠かせないツールとなり、アウトプットの品質と信頼性を確保することがこれまで以上に重要になっている。これにより、LCM出力の信頼性を評価するための不確実性定量化(UQ)手法への関心が高まっている。既存のUQ技術の多くはトークンの確率に依存しており、それは出力の長さに関して不注意にバイアスを生じさせる。いくつかの手法がこれを考慮しようとするが、そのようなバイアスは長さ正規化アプローチにおいても持続することを示す。この問題を解決するために,UNCERTAINTY-LINE: (Length-Invariant Estimation)を提案する。本手法は, ポストホック, モデル非依存であり, 様々なUQ尺度に適用可能である。機械翻訳,要約,質問応答タスクの広範囲な評価を通じて,UNCERTAINTY-LINE: 名目上は長さ正規化UQ法よりも常に改善されていることを示す。

関連論文リスト

UNCLE: Uncertainty Expressions in Long-Form Generation [48.7696074873262]
大型言語モデル(LLM)は幻覚を起こす傾向があり、特に長期の世代では顕著である。長文と短文の問合せ(QA)における不確実性評価のためのベンチマークであるUNCLEを紹介する。私たちのデータセットは、ペアの質問とゴールドスタンダードの回答で、ショートとロングフォームのQAを直接ブリッジする最初のものです。
論文参考訳（メタデータ） (2025-05-22T17:16:08Z)
Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results [10.551985027162576]
提案手法は,特定のUQ法の性能を膨らませることで,UQ評価に偏りが生じることを示す。語彙ベースと埋め込みベースのメトリクスからLCM-as-a-judgeアプローチまで,7つの正当性関数を評価した。
論文参考訳（メタデータ） (2025-04-18T13:13:42Z)
Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文参考訳（メタデータ） (2025-02-20T10:25:13Z)
Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.9354890840418]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文参考訳（メタデータ） (2025-02-07T14:30:12Z)
Legitimate ground-truth-free metrics for deep uncertainty classification scoring [3.9599054392856483]
製造における不確実性定量化(UQ)手法の使用は依然として限られている。この制限は、UQ基底真理を欠いたUQ手法を検証するという課題によってさらに悪化する。本稿では,これらの指標を考察し,理論的に良好であり,実際に不確実な基礎的真理に結びついていることを証明する。
論文参考訳（メタデータ） (2024-10-30T14:14:32Z)
Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models [9.817185255633758]
大規模言語モデル(LLM)がますます普及し、顕著なテキスト生成機能を提供している。プレッシャーの課題は、自信を持って間違った予測をする傾向にある。本稿では,浮腫とてんかんの両不確実性に対処するために,新しいUQ法を提案する。その結果,モデルキャリブレーションは大幅に改善し,予測誤差(ECE)は平均50%減少した。
論文参考訳（メタデータ） (2024-03-04T21:55:22Z)
Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文参考訳（メタデータ） (2023-11-26T22:47:54Z)
Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠であるほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文参考訳（メタデータ） (2022-07-27T07:50:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。