論文の概要: Contextualized Sequence Likelihood: Enhanced Confidence Scores for Natural Language Generation
- arxiv url: http://arxiv.org/abs/2406.01806v1
- Date: Mon, 3 Jun 2024 21:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:42:35.615594
- Title: Contextualized Sequence Likelihood: Enhanced Confidence Scores for Natural Language Generation
- Title(参考訳): 文脈型シーケンスの類似性:自然言語生成における信頼度向上
- Authors: Zhen Lin, Shubhendu Trivedi, Jimeng Sun,
- Abstract要約: 種々のトークンに異なる重みを割り当てることで予測シーケンス確率を向上させることを提案する。
我々はこの新しいスコアを文脈化シーケンス類似度(CSL)と呼ぶ。
- 参考スコア(独自算出の注目度): 37.63939774027709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of large language models (LLMs) has dramatically advanced the state-of-the-art in numerous natural language generation tasks. For LLMs to be applied reliably, it is essential to have an accurate measure of their confidence. Currently, the most commonly used confidence score function is the likelihood of the generated sequence, which, however, conflates semantic and syntactic components. For instance, in question-answering (QA) tasks, an awkward phrasing of the correct answer might result in a lower probability prediction. Additionally, different tokens should be weighted differently depending on the context. In this work, we propose enhancing the predicted sequence probability by assigning different weights to various tokens using attention values elicited from the base LLM. By employing a validation set, we can identify the relevant attention heads, thereby significantly improving the reliability of the vanilla sequence probability confidence measure. We refer to this new score as the Contextualized Sequence Likelihood (CSL). CSL is easy to implement, fast to compute, and offers considerable potential for further improvement with task-specific prompts. Across several QA datasets and a diverse array of LLMs, CSL has demonstrated significantly higher reliability than state-of-the-art baselines in predicting generation quality, as measured by the AUROC or AUARC.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、多くの自然言語生成タスクにおいて、最先端の技術を劇的に進歩させてきた。
LLMを確実に適用するには、その信頼性を正確に測定することが不可欠である。
現在最も一般的に使われている信頼スコア関数は、生成されたシーケンスの確率であり、セマンティックおよび構文成分を混同している。
例えば、質問応答(QA)タスクでは、正しい答えの曖昧な表現は、より低い確率予測をもたらす。
さらに、異なるトークンはコンテキストによって異なる重み付けをすべきである。
本研究では,LLMから抽出した注目値を用いて,様々なトークンに異なる重みを割り当てることで,予測シーケンスの確率を向上させることを提案する。
検証セットを用いることで、関連する注意ヘッドを識別し、バニラシーケンスの確率信頼度測定の信頼性を大幅に向上させることができる。
我々は、この新しいスコアをContextualized Sequence Likelihood (CSL)と呼ぶ。
CSLは実装が容易で、高速で計算でき、タスク固有のプロンプトでさらに改善する可能性がある。
いくつかのQAデータセットと多種多様なLLMの範囲で、CSLはAUROCやAUARCで測定されたように、生成品質の予測において最先端のベースラインよりもはるかに高い信頼性を示している。
関連論文リスト
- Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - CLUE: Concept-Level Uncertainty Estimation for Large Language Models [49.92690111618016]
大規模言語モデル(LLM)のための概念レベル不確実性推定のための新しいフレームワークを提案する。
LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。
我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行った。
論文 参考訳(メタデータ) (2024-09-04T18:27:12Z) - Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs [32.672370840879616]
Learnable Response Scoring (LARS)は、トークンと確率の間の複雑な依存関係をキャプチャするために教師付きデータを活用する、新しいスコアリング機能である。
実験の結果,LARSは既存のスコアリング機能よりも優れており,最大16%のAUROCスコアが向上した。
論文 参考訳(メタデータ) (2024-06-17T07:30:40Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。