Fugu-MT 論文翻訳(概要): Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach

論文の概要: Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach

arxiv url: http://arxiv.org/abs/2404.15993v3
Date: Sat, 29 Jun 2024 02:58:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 14:19:57.364032
Title: Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach
Title（参考訳）: LLMの不確かさ推定と定量化: 簡単な監視手法
Authors: Linyu Liu, Yu Pan, Xiaocheng Li, Guanting Chen,
Abstract要約: まず LLM の不確実性推定問題を定式化し,ラベル付きデータセットを利用する教師付きアプローチを提案する。本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
参考スコア（独自算出の注目度）: 6.209293868095268
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the problem of uncertainty estimation and calibration for LLMs. We first formulate the uncertainty estimation problem for LLMs and then propose a supervised approach that takes advantage of the labeled datasets and estimates the uncertainty of the LLMs' responses. Based on the formulation, we illustrate the difference between the uncertainty estimation for LLMs and that for standard ML models and explain why the hidden neurons of the LLMs may contain uncertainty information. Our designed approach demonstrates the benefits of utilizing hidden activations to enhance uncertainty estimation across various tasks and shows robust transferability in out-of-distribution settings. We distinguish the uncertainty estimation task from the uncertainty calibration task and show that a better uncertainty estimation mode leads to a better calibration performance. Furthermore, our method is easy to implement and adaptable to different levels of model accessibility including black box, grey box, and white box.
Abstract（参考訳）: 本稿では,LLMにおける不確実性推定と校正の問題について検討する。まず LLM の不確実性推定問題を定式化し,ラベル付きデータセットを利用して LLM の応答の不確かさを推定する教師付きアプローチを提案する。定式化に基づいて,LLM の不確実性推定と標準ML モデルとの差を説明し,LLM の隠れニューロンが不確実性情報を含んでいる理由を説明する。提案手法は, 各種タスク間の不確実性評価を高めるために隠れアクティベーションを利用する利点を示し, アウト・オブ・ディストリビューション・セッティングにおけるロバストな転送可能性を示す。我々は不確実性推定タスクを不確実性校正タスクと区別し、より良い不確実性推定モードがより良い校正性能をもたらすことを示す。さらに,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。

関連論文リスト

Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。 LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文参考訳（メタデータ） (2025-10-09T10:26:58Z)
Towards Harmonized Uncertainty Estimation for Large Language Models [22.58034272573749]
不確実性推定によって世代間の信頼性を定量化することが不可欠である。 CUE(Corrector for Uncertainity Estimation:不確かさ推定のためのコレクタ)を提案する。
論文参考訳（メタデータ） (2025-05-25T10:17:57Z)
Token-Level Uncertainty Estimation for Large Language Model Reasoning [24.56760223952017]
大きな言語モデル(LLM)は印象的な機能を示していますが、その出力品質はさまざまなアプリケーションシナリオで相容れないままです。本稿では, LLMの自己評価と, 数学的推論における生成品質の自己向上を可能にするトークンレベルの不確実性推定フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-16T22:47:32Z)
Uncertainty Profiles for LLMs: Uncertainty Source Decomposition and Adaptive Model-Metric Selection [4.151658495779136]
大型言語モデル(LLM)は、幻覚として知られる事実的に誤った出力を生成することが多い。本研究では,不確実性を4つの異なるソースに分解するための系統的枠組みを提案する。本稿では,その不確実性特性と与えられたタスクのアライメントやばらつきによって導かれるタスク固有距離/モデル選択法を提案する。
論文参考訳（メタデータ） (2025-05-12T07:55:22Z)
Rethinking LLM Uncertainty: A Multi-Agent Approach to Estimating Black-Box Model Uncertainty [47.95943057892318]
ブラックボックスLSMの不確実性の定量化は、信頼性の高い応答とスケーラブルな監視に不可欠である。本研究では,不確実性推定にマルチエージェント相互作用を用いた新しい理論的基礎手法であるDiverseAgentEntropyを紹介する。
論文参考訳（メタデータ） (2024-12-12T18:52:40Z)
SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。 LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文参考訳（メタデータ） (2024-12-02T01:31:13Z)
A Survey of Uncertainty Estimation in LLMs: Theory Meets Practice [7.687545159131024]
我々は、不確実性と信頼の定義を明確にし、それらの区別とモデル予測への含意を明らかにする。本稿では,アプローチから導いた不確実性推定手法を分類する。また,分布外検出,データアノテーション,質問の明確化など,多様なアプリケーションに不確実性をもたらす技術についても検討する。
論文参考訳（メタデータ） (2024-10-20T07:55:44Z)
Black-box Uncertainty Quantification Method for LLM-as-a-Judge [13.45579129351493]
LLM-as-a-Judge評価の信頼性を高めるために設計された不確実性を定量化する新しい手法を提案する。生成された評価と可能な評価の関係を分析して不確実性を定量化する。これらの関係を相互に評価し、トークン確率に基づく混乱行列を構築することにより、高いあるいは低い不確実性のラベルを導出する。
論文参考訳（メタデータ） (2024-10-15T13:29:22Z)
CLUE: Concept-Level Uncertainty Estimation for Large Language Models [49.92690111618016]
大規模言語モデル(LLM)のための概念レベル不確実性推定のための新しいフレームワークを提案する。 LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行った。
論文参考訳（メタデータ） (2024-09-04T18:27:12Z)
MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty [10.154013836043816]
我々は,世界知識,数学的推論,コモンセンス推論タスクからなるMulti-Answer Question Answering データセット MAQA を提案する。その結果,データ不確実性の下でも,エントロピーと一貫性に基づく手法がモデルの不確実性をよく推定できることが示唆された。我々は、我々の観察が、現実的な環境での不確実性定量化に関する今後の研究の道を開くと信じている。
論文参考訳（メタデータ） (2024-08-13T11:17:31Z)
Question Rephrasing for Quantifying Uncertainty in Large Language Models: Applications in Molecular Chemistry Tasks [4.167519875804914]
大規模言語モデル(LLM)の入力不確実性を評価するための新しい質問文記述手法を提案する。この手法はLLMの出力不確実性を測定するサンプリング手法と統合され、より包括的な不確実性評価を提供する。
論文参考訳（メタデータ） (2024-08-07T12:38:23Z)
ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-29T17:33:07Z)
A Structured Review of Literature on Uncertainty in Machine Learning & Deep Learning [0.8667724053232616]
我々は、リスクに敏感なアプリケーション、すなわち不確実性を理解し、定量化するアプリケーションにおいて、機械学習を適応するための重要な関心事に焦点を当てる。本稿では,このトピックを構造化した方法でアプローチし,不確実性がMLプロセスに封入されているというさまざまな側面の文献をレビューする。このレビューの主な貢献は、不確実性議論の範囲を広げ、Deep Learningにおける不確実性定量化手法のレビューを更新することである。
論文参考訳（メタデータ） (2024-06-01T07:17:38Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文参考訳（メタデータ） (2023-02-24T09:18:27Z)
DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T23:50:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。