Fugu-MT 論文翻訳(概要): Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI

論文の概要: Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI

arxiv url: http://arxiv.org/abs/2411.02381v1
Date: Mon, 04 Nov 2024 18:49:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.231265
Title: Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI
Title（参考訳）: ジェネレーティブAIの信頼性を高めるLLMの不確実性への対処
Authors: Ramneet Kaur, Colin Samplawski, Adam D. Cobb, Anirban Roy, Brian Matejek, Manoj Acharya, Daniel Elenius, Alexander M. Berenbeim, John A. Pavlik, Nathaniel D. Bastian, Susmit Jha,
Abstract要約: 中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
参考スコア（独自算出の注目度）: 47.64301863399763
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present a dynamic semantic clustering approach inspired by the Chinese Restaurant Process, aimed at addressing uncertainty in the inference of Large Language Models (LLMs). We quantify uncertainty of an LLM on a given query by calculating entropy of the generated semantic clusters. Further, we propose leveraging the (negative) likelihood of these clusters as the (non)conformity score within Conformal Prediction framework, allowing the model to predict a set of responses instead of a single output, thereby accounting for uncertainty in its predictions. We demonstrate the effectiveness of our uncertainty quantification (UQ) technique on two well known question answering benchmarks, COQA and TriviaQA, utilizing two LLMs, Llama2 and Mistral. Our approach achieves SOTA performance in UQ, as assessed by metrics such as AUROC, AUARC, and AURAC. The proposed conformal predictor is also shown to produce smaller prediction sets while maintaining the same probabilistic guarantee of including the correct response, in comparison to existing SOTA conformal prediction baseline.
Abstract（参考訳）: 本稿では,Large Language Models (LLMs) の推論における不確実性に対処することを目的とした,中国語レストランプロセスにヒントを得た動的セマンティッククラスタリング手法を提案する。我々は、生成されたセマンティッククラスタのエントロピーを計算することにより、与えられたクエリ上でLLMの不確実性を定量化する。さらに,これらのクラスタの(負の)確率をコンフォーマル予測フレームワーク内の(非)整合性スコアとして活用し,モデルが単一出力ではなく応答の集合を予測できるようにし,予測の不確実性を考慮することを提案する。 Llama2 と Mistral の2つの LLM を利用した2つのよく知られた質問応答ベンチマーク COQA と TriviaQA に対する不確実性定量化 (UQ) 手法の有効性を実証した。提案手法は,AUROC,AUARC,AURACなどの指標によって評価され,UQにおけるSOTA性能を実現する。提案した共形予測器は、既存のSOTA共形予測ベースラインと比較して、正しい応答を含む確率的保証を維持しつつ、より小さな予測セットを生成する。

関連論文リスト

The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文参考訳（メタデータ） (2025-11-06T14:46:35Z)
Token-Level Uncertainty Estimation for Large Language Model Reasoning [24.56760223952017]
大きな言語モデル(LLM)は印象的な機能を示していますが、その出力品質はさまざまなアプリケーションシナリオで相容れないままです。本稿では, LLMの自己評価と, 数学的推論における生成品質の自己向上を可能にするトークンレベルの不確実性推定フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-16T22:47:32Z)
Random-Set Large Language Models [4.308457163593758]
大規模言語モデル(LLM)は、クエリに対する非常に高品質なテストとレスポンスを生成することで知られています。しかし、この生成されたテキストはいくら信用できますか? 本稿では,トークン空間上の有限ランダム集合(関数)を予測するランダムセット大言語モデル(RSLLM)を提案する。
論文参考訳（メタデータ） (2025-04-25T05:25:27Z)
From predictions to confidence intervals: an empirical study of conformal prediction methods for in-context learning [4.758643223243787]
本稿では,共形予測に基づく予測区間の構築手法を提案する。従来のコンフォメーション法はモデルフィッティングの繰り返しによる計算コストが高いが,ICLを利用して1回のフォワードパスで信頼区間を効率よく生成する。我々の実証分析は、リッジ回帰に基づくコンフォメーション手法に対するこのアプローチと比較し、インコンテキスト学習(CP with ICL)によるコンフォメーション予測が、堅牢でスケーラブルな不確実性推定を実現することを示す。
論文参考訳（メタデータ） (2025-04-22T09:11:48Z)
COPU: Conformal Prediction for Uncertainty Quantification in Natural Language Generation [14.461333001997449]
大規模言語モデル(LLM)の性能評価には,自然言語生成のための不確実性定量化(UQ)が不可欠である。提案手法は,候補出力に基底真理を明示的に付加し,ロジットスコアを用いて非整合性を測定する手法である。
論文参考訳（メタデータ） (2025-02-18T07:25:12Z)
Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。自然言語生成からコード生成領域への2つの最先端技術を適用する。これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文参考訳（メタデータ） (2025-02-17T10:03:01Z)
Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文参考訳（メタデータ） (2024-07-04T22:22:09Z)
Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T09:31:03Z)
ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-29T17:33:07Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文参考訳（メタデータ） (2024-01-06T16:29:13Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
Estimation and Applications of Quantiles in Deep Binary Classification [0.0]
チェック損失に基づく量子回帰は統計学において広く使われている推論パラダイムである。二項分類設定におけるチェック損失の類似について考察する。我々は、予測が信頼できるかどうかを判断するために使用できる個別信頼度スコアを開発する。
論文参考訳（メタデータ） (2021-02-09T07:07:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。