論文の概要: Multiple-Choice Questions are Efficient and Robust LLM Evaluators
- arxiv url: http://arxiv.org/abs/2405.11966v3
- Date: Wed, 12 Jun 2024 16:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 22:05:02.901926
- Title: Multiple-Choice Questions are Efficient and Robust LLM Evaluators
- Title(参考訳): 多項目質問は効率的かつロバストなLCM評価器である
- Authors: Ziyin Zhang, Lizhen Xu, Zhaokun Jiang, Hongkun Hao, Rui Wang,
- Abstract要約: GSM8KとMATH-MCの回答と誤予測を収集して構築した2つのデータセットを提案する。
これら2つのベンチマークのMCバージョンにおけるLCMの性能は、元のバージョンにおける性能と強く相関していることを示す。
同様の手順に従い、新しいプログラム出力予測MCデータセットであるPythonIOを紹介する。
- 参考スコア(独自算出の注目度): 5.1660285047487715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present GSM-MC and MATH-MC, two multiple-choice (MC) datasets constructed by collecting answers and incorrect predictions on GSM8K and MATH from 60 open-source models. Through extensive experiments, we show that LLMs' performance on the MC versions of these two popular benchmarks is strongly correlated with their performance on the original versions and is quite robust to distractor choices and option orders, while the evaluation time is reduced by a factor of up to 30. Following a similar procedure, we introduce PythonIO, a new program output prediction MC dataset constructed from two other popular LLM evaluation benchmarks, HumanEval and MBPP. Our data and code are available at https://github.com/Geralt-Targaryen/MC-Evaluation.
- Abstract(参考訳): GSM-MC と MATH-MC は,60個のオープンソースモデルから GSM8K と MATH の回答と誤予測を収集して構築された2つの多重選択(MC)データセットである。
広範にわたる実験により,これら2つのベンチマークのMCバージョンにおけるLCMの性能は,元のバージョンにおける性能と強く相関し,選択や選択肢の順序を逸脱させる可能性が高く,評価時間を最大30倍に短縮できることを示した。
同様の手順に従って,HumanEvalとMBPPという2つのLLM評価ベンチマークから構築した新しいプログラム出力予測MCデータセットであるPythonIOを紹介する。
私たちのデータとコードはhttps://github.com/Geralt-Targaryen/MC-Evaluation.comで公開されています。
関連論文リスト
- DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である
我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。
テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文 参考訳(メタデータ) (2024-04-01T06:01:17Z) - Towards Open-ended Visual Quality Comparison [87.45004129101089]
我々は、新しい大規模マルチモーダリティモデル(LMM)のエッジを拡張し、視覚的品質比較をオープンエンド設定に進める。
Co-Instructはオープンソースのビジュアル品質比較ツールだ。
我々はCo-Instructが最先端のオープンソースLMMよりも平均30%高い精度で達成できることを実証した。
論文 参考訳(メタデータ) (2024-02-26T15:10:56Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Parallel Approaches to Accelerate Bayesian Decision Trees [1.9728521995447947]
本稿では,MCMCにおける並列性を利用した2つの手法を提案する。
第一に、MCMCを別の数値ベイズ的アプローチで置き換える。
第2に、データのパーティショニングについて検討する。
論文 参考訳(メタデータ) (2023-01-22T09:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。