論文の概要: Self-Evaluation Improves Selective Generation in Large Language Models
- arxiv url: http://arxiv.org/abs/2312.09300v1
- Date: Thu, 14 Dec 2023 19:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:58:13.827294
- Title: Self-Evaluation Improves Selective Generation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける自己評価による選択生成の改善
- Authors: Jie Ren, Yao Zhao, Tu Vu, Peter J. Liu, Balaji Lakshminarayanan
- Abstract要約: オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
- 参考スコア(独自算出の注目度): 54.003992911447696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe deployment of large language models (LLMs) may benefit from a reliable
method for assessing their generated content to determine when to abstain or to
selectively generate. While likelihood-based metrics such as perplexity are
widely employed, recent research has demonstrated the limitations of using
sequence-level probability estimates given by LLMs as reliable indicators of
generation quality. Conversely, LLMs have demonstrated strong calibration at
the token level, particularly when it comes to choosing correct answers in
multiple-choice questions or evaluating true/false statements. In this work, we
reformulate open-ended generation tasks into token-level prediction tasks, and
leverage LLMs' superior calibration at the token level. We instruct an LLM to
self-evaluate its answers, employing either a multi-way comparison or a
point-wise evaluation approach, with the option to include a ``None of the
above'' option to express the model's uncertainty explicitly. We benchmark a
range of scoring methods based on self-evaluation and evaluate their
performance in selective generation using TruthfulQA and TL;DR. Through
experiments with PaLM-2 and GPT-3, we demonstrate that self-evaluation based
scores not only improve accuracy, but also correlate better with the overall
quality of generated content.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全なデプロイは、生成されたコンテンツを評価する信頼性の高い方法の恩恵を受けることができる。
パープレキシティなどの可能性ベースの指標は広く採用されているが、近年の研究では、LLMが生成品質の信頼性指標として与えるシーケンスレベルの確率推定の限界が示されている。
逆に、LLMはトークンレベルで強力なキャリブレーションを示しており、特に複数の質問で正しい答えを選択する場合や、真/偽の文を評価する場合である。
本研究では,オープンエンド生成タスクをトークンレベルの予測タスクに再構成し,トークンレベルでのLCMの優れたキャリブレーションを活用する。
我々は、llmに、モデルの不確実性を明示的に表現するための ``none of the above''' オプションを含むオプションで、多方向比較またはポイントワイズ評価のアプローチを用いて、その答えを自己評価するように指示する。
本稿では,自己評価に基づく評価手法をベンチマークし,TrathfulQA と TL;DR を用いて選択生成の性能評価を行う。
PaLM-2 と GPT-3 を用いた実験により,自己評価に基づくスコアは精度を向上するだけでなく,生成したコンテンツの全体的な品質と相関することを示した。
関連論文リスト
- Bayesian Calibration of Win Rate Estimation with LLM Evaluators [20.588104799661014]
本研究では,大言語モデル(LLM)を評価対象として,勝利率推定の精度を向上させる2つの手法を提案する。
我々は,ストーリ生成,要約,タスクの指示を含む6つのデータセット上で,我々の手法を実証的に検証した。
論文 参考訳(メタデータ) (2024-11-07T04:32:40Z) - Evaluating language models as risk scores [23.779329697527054]
質問応答 LLM を用いてリスクスコアを生成するソフトウェアパッケージである folktexts を紹介する。
提案した5つのベンチマークタスクにまたがって17の最近のLCMを評価した。
複数選択質問応答によるゼロショットリスクスコアは高い予測信号を持つが、広く誤校正されている。
論文 参考訳(メタデータ) (2024-07-19T18:13:37Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。