Fugu-MT 論文翻訳(概要): SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models

論文の概要: SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models

arxiv url: http://arxiv.org/abs/2403.02509v1
Date: Mon, 4 Mar 2024 21:55:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 16:47:45.976705
Title: SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models
Title（参考訳）: SPUQ:大規模言語モデルに対する摂動に基づく不確実性定量化
Authors: Xiang Gao, Jiaxin Zhang, Lalla Mouatadid, Kamalika Das
Abstract要約: 大規模言語モデル(LLM)がますます普及し、顕著なテキスト生成機能を提供している。プレッシャーの課題は、自信を持って間違った予測をする傾向にある。本稿では,浮腫とてんかんの両不確実性に対処するために,新しいUQ法を提案する。その結果,モデルキャリブレーションは大幅に改善し,予測誤差(ECE)は平均50%減少した。
参考スコア（独自算出の注目度）: 9.817185255633758
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, large language models (LLMs) have become increasingly prevalent, offering remarkable text generation capabilities. However, a pressing challenge is their tendency to make confidently wrong predictions, highlighting the critical need for uncertainty quantification (UQ) in LLMs. While previous works have mainly focused on addressing aleatoric uncertainty, the full spectrum of uncertainties, including epistemic, remains inadequately explored. Motivated by this gap, we introduce a novel UQ method, sampling with perturbation for UQ (SPUQ), designed to tackle both aleatoric and epistemic uncertainties. The method entails generating a set of perturbations for LLM inputs, sampling outputs for each perturbation, and incorporating an aggregation module that generalizes the sampling uncertainty approach for text generation tasks. Through extensive experiments on various datasets, we investigated different perturbation and aggregation techniques. Our findings show a substantial improvement in model uncertainty calibration, with a reduction in Expected Calibration Error (ECE) by 50\% on average. Our findings suggest that our proposed UQ method offers promising steps toward enhancing the reliability and trustworthiness of LLMs.
Abstract（参考訳）: 近年、大規模言語モデル(llm)が普及し、注目すべきテキスト生成機能を提供している。しかし、迫る課題は、LLMにおける不確実性定量化(UQ)に対する重要な必要性を強調しながら、確実に間違った予測を行う傾向にある。以前の研究は主にアレタリック不確実性に対処することに焦点を当ててきたが、エピステミックを含む不確実性の全スペクトルはいまだに不十分である。このギャップを生かした新しいUQ法(SPUQ)を導入し,動脈とてんかんの両不確実性に対処する。 LLM入力のための一連の摂動を生成し、各摂動に対して出力をサンプリングし、テキスト生成タスクのためのサンプリング不確実性アプローチを一般化する集約モジュールを組み込む。各種データセットの広範囲な実験を通じて,様々な摂動・凝集技術について検討した。その結果, 予測校正誤差(ece)を平均50%削減し, モデル不確実性校正の大幅な改善が示された。提案手法は,LLMの信頼性と信頼性を高めるための有望なステップを提供すると考えられる。

関連論文リスト

An Information-Theoretic Perspective on Multi-LLM Uncertainty Estimation [7.018119896897734]
大規模言語モデル(LLM)は入力間で矛盾なく振る舞うことが多く、不確実性を示し、その定量化の必要性を高レベルな設定で動機付けている。本稿では,MUSE(Multi-LLM Uncertainty via Subset Ensembles)を提案する。二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文参考訳（メタデータ） (2025-07-09T19:13:25Z)
Token-Level Uncertainty Estimation for Large Language Model Reasoning [24.56760223952017]
大きな言語モデル(LLM)は印象的な機能を示していますが、その出力品質はさまざまなアプリケーションシナリオで相容れないままです。本稿では, LLMの自己評価と, 数学的推論における生成品質の自己向上を可能にするトークンレベルの不確実性推定フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-16T22:47:32Z)
Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey [11.737403011836532]
LLM(Large Language Models)は、医療、法律、交通といった高度な分野において、テキスト生成、推論、意思決定に優れる。不確実性定量化(UQ)は、アウトプットの信頼度を推定することで信頼性を高め、リスク軽減と選択的予測を可能にする。計算効率と不確実性次元に基づいてUQ手法を分類する新しい分類法を提案する。
論文参考訳（メタデータ） (2025-03-20T05:04:29Z)
Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文参考訳（メタデータ） (2025-02-07T14:30:12Z)
Uncertainty separation via ensemble quantile regression [23.667247644930708]
本稿では,不確実性推定と分離のための新しい,スケーラブルなフレームワークを提案する。我々のフレームワークは大規模データセットにスケーラブルであり、合成ベンチマークで優れた性能を示す。
論文参考訳（メタデータ） (2024-12-18T11:15:32Z)
SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。 LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文参考訳（メタデータ） (2024-12-02T01:31:13Z)
CLUE: Concept-Level Uncertainty Estimation for Large Language Models [49.92690111618016]
大規模言語モデル(LLM)のための概念レベル不確実性推定のための新しいフレームワークを提案する。 LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行った。
論文参考訳（メタデータ） (2024-09-04T18:27:12Z)
Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
LLMにおける不確実性推定と校正の問題について検討する。 LLMの応答の不確かさを推定するためにラベル付きデータセットを利用する教師付きアプローチを提案する。本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
論文参考訳（メタデータ） (2024-04-24T17:10:35Z)
Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。 Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-04-15T21:02:48Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。言語生成に適用するための実践的境界を開発する。本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文参考訳（メタデータ） (2023-02-26T16:32:52Z)
Uncertainty Quantification for Traffic Forecasting: A Unified Approach [21.556559649467328]
不確実性は時系列予測タスクに不可欠な考慮事項である。本研究では,交通予測の不確かさの定量化に焦点をあてる。 STUQ(Deep S-Temporal Uncertainity Quantification)を開発した。
論文参考訳（メタデータ） (2022-08-11T15:21:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。