論文の概要: MARS: Meaning-Aware Response Scoring for Uncertainty Estimation in
Generative LLMs
- arxiv url: http://arxiv.org/abs/2402.11756v1
- Date: Mon, 19 Feb 2024 01:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:52:29.746773
- Title: MARS: Meaning-Aware Response Scoring for Uncertainty Estimation in
Generative LLMs
- Title(参考訳): MARS:生成LDMの不確かさ推定のための意味認識応答スコア
- Authors: Yavuz Faruk Bakman, Duygu Nur Yaldiz, Baturalp Buyukates, Chenyang
Tao, Dimitrios Dimitriadis, Salman Avestimehr
- Abstract要約: 不確実性評価のための長さ正規化スコアリング(UE)の代替として,MARS(Meaning-Aware Response Scoring)を提案する。
MARSは、質問の文脈において生成されたシーケンスにおける各トークンのセマンティックコントリビューションを考慮に入れた、新しいスコアリング機能である。
UE手法にMARSを組み込むことにより,UE性能の普遍的かつ大幅な向上が期待できることを示す。
- 参考スコア(独自算出の注目度): 26.639425186407124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Large Language Models (LLMs) are widely utilized for their
excellence in various tasks. However, their tendency to produce inaccurate or
misleading outputs poses a potential risk, particularly in high-stakes
environments. Therefore, estimating the correctness of generative LLM outputs
is an important task for enhanced reliability. Uncertainty Estimation (UE) in
generative LLMs is an evolving domain, where SOTA probability-based methods
commonly employ length-normalized scoring. In this work, we propose
Meaning-Aware Response Scoring (MARS) as an alternative to length-normalized
scoring for UE methods. MARS is a novel scoring function that considers the
semantic contribution of each token in the generated sequence in the context of
the question. We demonstrate that integrating MARS into UE methods results in a
universal and significant improvement in UE performance. We conduct experiments
using three distinct closed-book question-answering datasets across five
popular pre-trained LLMs. Lastly, we validate the efficacy of MARS on a Medical
QA dataset. Code can be found
https://anonymous.4open.science/r/LLM_Uncertainity-309B.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)は、様々なタスクにおける卓越性のために広く利用されている。
しかし、不正確または誤ったアウトプットを生み出す傾向は、特に高い環境において潜在的なリスクを引き起こす。
したがって、生成LDM出力の正しさを推定することは信頼性を高める重要な課題である。
生成LDMにおける不確かさ推定(UE)は進化する領域であり、SOTA確率に基づく手法は一般に長さ正規化スコアを用いる。
本研究では,UE法における長さ正規化スコアリングの代替として,MARS(Meaning-Aware Response Scoring)を提案する。
MARSは、質問の文脈において生成されたシーケンスにおける各トークンのセマンティックコントリビューションを考える新しいスコアリング機能である。
UE手法にMARSを組み込むことにより,UE性能の普遍的かつ大幅な向上が期待できることを示す。
我々は,5つの学習済みLLMに対して,3つの異なるクローズドブック質問応答データセットを用いて実験を行った。
最後に,医療用QAデータセットにおけるMARSの有効性を検証する。
コードはhttps://anonymous.4open.science/r/LLM_Uncertainity-309Bにある。
関連論文リスト
- Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling [3.873482175367558]
本稿では,Large Language Model (LLM) による各トークンの生成を,アンサンブルのための分類(GaC)として扱う。
実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-18T13:17:26Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Contextualized Sequence Likelihood: Enhanced Confidence Scores for Natural Language Generation [37.63939774027709]
種々のトークンに異なる重みを割り当てることで予測シーケンス確率を向上させることを提案する。
我々はこの新しいスコアを文脈化シーケンス類似度(CSL)と呼ぶ。
論文 参考訳(メタデータ) (2024-06-03T21:55:07Z) - REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である
従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。
本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文 参考訳(メタデータ) (2023-11-16T07:03:54Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。