論文の概要: Efficient multi-prompt evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2405.17202v1
- Date: Mon, 27 May 2024 14:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 15:03:23.939854
- Title: Efficient multi-prompt evaluation of LLMs
- Title(参考訳): LLMの効率的なマルチプロンプト評価
- Authors: Felipe Maia Polo, Ronald Xu, Lucas Weber, Mírian Silva, Onkar Bhardwaj, Leshem Choshen, Allysson Flavio Melo de Oliveira, Yuekai Sun, Mikhail Yurochkin,
- Abstract要約: PromptEvalは,多数のプロンプトに対して性能を推定する手法である。
PromptEvalは一貫して性能分布を推定し,その有効性を実証的に証明する。
- 参考スコア(独自算出の注目度): 36.46258631685666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most popular benchmarks for comparing LLMs rely on a limited set of prompt templates, which may not fully capture the LLMs' abilities and can affect the reproducibility of results on leaderboards. Many recent works empirically verify prompt sensitivity and advocate for changes in LLM evaluation. In this paper, we consider the problem of estimating the performance distribution across many prompt variants instead of finding a single prompt to evaluate with. We introduce PromptEval, a method for estimating performance across a large set of prompts borrowing strength across prompts and examples to produce accurate estimates under practical evaluation budgets. The resulting distribution can be used to obtain performance quantiles to construct various robust performance metrics (e.g., top 95% quantile or median). We prove that PromptEval consistently estimates the performance distribution and demonstrate its efficacy empirically on three prominent LLM benchmarks: MMLU, BIG-bench Hard, and LMentry. For example, PromptEval can accurately estimate performance quantiles across 100 prompt templates on MMLU with a budget equivalent to two single-prompt evaluations. Our code and data can be found at https://github.com/felipemaiapolo/prompt-eval.
- Abstract(参考訳): LLMの比較のための最も一般的なベンチマークは限られたプロンプトテンプレートに依存しており、LLMの能力をフルに捉えておらず、リーダーボード上での結果の再現性に影響を与える可能性がある。
近年の多くの研究は、迅速な感度を実証的に検証し、LCM評価の変化を提唱している。
本稿では,評価対象の1つのプロンプトを見つけるのではなく,多くのプロンプト変種にまたがる性能分布を推定する問題を考察する。
PromptEvalは,プロンプトと実測値を用いた精度評価を行うために,プロンプトと実例をまたいで,多数のプロンプトをまたいで性能を推定する手法である。
結果の分布は、様々な堅牢なパフォーマンス指標(例えば、上位95%の量子化、中央値)を構築するために、パフォーマンス量子化を得るのに使うことができる。
MMLU, BIG-bench Hard, LMentryの3つのベンチマークにおいて, PromptEvalが連続的に性能分布を推定し, その有効性を実証した。
例えば、PromptEvalはMMLU上で100のプロンプトテンプレートにまたがるパフォーマンスの定量値を正確に見積もることができ、予算は2つの単発評価に相当する。
コードとデータはhttps://github.com/felipemaiapolo/prompt-eval.comで確認できます。
関連論文リスト
- UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。
これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。
また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - tinyBenchmarks: evaluating LLMs with fewer examples [42.95407654805037]
Open LLM Leaderboard、MMLU、HELM、AlpacaEval 2.0。
実験により,これらのツールと小さなベンチマークは,元の評価結果を確実かつ効率的に再現するのに十分であることを実証した。
論文 参考訳(メタデータ) (2024-02-22T22:05:23Z) - PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
与えられたタスクに対して,大きな言語モデル(LLM)に最適なプロンプトを見つけるための新しいフレームワークを導入する。
ProMSTには人間設計のフィードバックルールが組み込まれ、改善のための直接提案が自動的に提供される。
また、プロンプト候補から効率的にサンプリングするために、プロンプト性能を予測するための学習モデルも使用しています。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Batch Prompting: Efficient Inference with Large Language Model APIs [37.70875323133654]
大規模言語モデル(LLM)を用いた大量のサンプルに対する推論は、計算的かつ経済的にコストがかかる可能性がある。
我々は,LLMがバッチで推論を実行できるようにする,シンプルで効果的なプロンプト手法であるバッチプロンプトを提案する。
バッチプロンプトの有効性を,コモンセンスQA,算術的推論,NLI/NLUで検証した。
論文 参考訳(メタデータ) (2023-01-19T02:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。