論文の概要: MARS: Meaning-Aware Response Scoring for Uncertainty Estimation in
Generative LLMs
- arxiv url: http://arxiv.org/abs/2402.11756v1
- Date: Mon, 19 Feb 2024 01:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:52:29.746773
- Title: MARS: Meaning-Aware Response Scoring for Uncertainty Estimation in
Generative LLMs
- Title(参考訳): MARS:生成LDMの不確かさ推定のための意味認識応答スコア
- Authors: Yavuz Faruk Bakman, Duygu Nur Yaldiz, Baturalp Buyukates, Chenyang
Tao, Dimitrios Dimitriadis, Salman Avestimehr
- Abstract要約: 不確実性評価のための長さ正規化スコアリング(UE)の代替として,MARS(Meaning-Aware Response Scoring)を提案する。
MARSは、質問の文脈において生成されたシーケンスにおける各トークンのセマンティックコントリビューションを考慮に入れた、新しいスコアリング機能である。
UE手法にMARSを組み込むことにより,UE性能の普遍的かつ大幅な向上が期待できることを示す。
- 参考スコア(独自算出の注目度): 26.639425186407124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Large Language Models (LLMs) are widely utilized for their
excellence in various tasks. However, their tendency to produce inaccurate or
misleading outputs poses a potential risk, particularly in high-stakes
environments. Therefore, estimating the correctness of generative LLM outputs
is an important task for enhanced reliability. Uncertainty Estimation (UE) in
generative LLMs is an evolving domain, where SOTA probability-based methods
commonly employ length-normalized scoring. In this work, we propose
Meaning-Aware Response Scoring (MARS) as an alternative to length-normalized
scoring for UE methods. MARS is a novel scoring function that considers the
semantic contribution of each token in the generated sequence in the context of
the question. We demonstrate that integrating MARS into UE methods results in a
universal and significant improvement in UE performance. We conduct experiments
using three distinct closed-book question-answering datasets across five
popular pre-trained LLMs. Lastly, we validate the efficacy of MARS on a Medical
QA dataset. Code can be found
https://anonymous.4open.science/r/LLM_Uncertainity-309B.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)は、様々なタスクにおける卓越性のために広く利用されている。
しかし、不正確または誤ったアウトプットを生み出す傾向は、特に高い環境において潜在的なリスクを引き起こす。
したがって、生成LDM出力の正しさを推定することは信頼性を高める重要な課題である。
生成LDMにおける不確かさ推定(UE)は進化する領域であり、SOTA確率に基づく手法は一般に長さ正規化スコアを用いる。
本研究では,UE法における長さ正規化スコアリングの代替として,MARS(Meaning-Aware Response Scoring)を提案する。
MARSは、質問の文脈において生成されたシーケンスにおける各トークンのセマンティックコントリビューションを考える新しいスコアリング機能である。
UE手法にMARSを組み込むことにより,UE性能の普遍的かつ大幅な向上が期待できることを示す。
我々は,5つの学習済みLLMに対して,3つの異なるクローズドブック質問応答データセットを用いて実験を行った。
最後に,医療用QAデータセットにおけるMARSの有効性を検証する。
コードはhttps://anonymous.4open.science/r/LLM_Uncertainity-309Bにある。
関連論文リスト
- REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である
従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。
本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文 参考訳(メタデータ) (2023-11-16T07:03:54Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。