Fugu-MT 論文翻訳(概要): Multiple-Choice Questions are Efficient and Robust LLM Evaluators

論文の概要: Multiple-Choice Questions are Efficient and Robust LLM Evaluators

arxiv url: http://arxiv.org/abs/2405.11966v1
Date: Mon, 20 May 2024 11:47:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 13:24:44.718577
Title: Multiple-Choice Questions are Efficient and Robust LLM Evaluators
Title（参考訳）: 多項目質問は効率的かつロバストなLCM評価器である
Authors: Ziyin Zhang, Lizhen Xu, Zhaokun Jiang, Hongkun Hao, Rui Wang,
Abstract要約: GSM8KとMATH-MCの回答と誤予測を収集して構築した2つのデータセットを提案する。これら2つのベンチマークのMCバージョンにおけるLCMの性能は、元のバージョンにおける性能と強く相関していることを示す。
参考スコア（独自算出の注目度）: 5.1660285047487715
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present GSM-MC and MATH-MC, two multiple-choice (MC) datasets constructed by collecting answers and incorrect predictions on GSM8K and MATH from over 50 open-source models. Through extensive experiments, we show that LLMs' performance on the MC versions of these two popular benchmarks is strongly correlated with their performance on the original versions, and is quite robust to distractor choices and option orders, while the evaluation time is reduced by a factor of up to 30. Following a similar procedure, we also introduce PythonIO, a new program output prediction MC dataset constructed from two other popular LLM evaluation benchmarks HumanEval and MBPP. Our data and code are available at https://github.com/Geralt-Targaryen/MC-Evaluation.
Abstract（参考訳）: GSM-MC と MATH-MC は,50以上のオープンソースモデルから GSM8K と MATH の回答と誤予測を収集して構築された2つの多重選択(MC)データセットである。広範にわたる実験により,これら2つのベンチマークのMCバージョンにおけるLCMの性能は,元のバージョンにおける性能と強く相関し,選択やオプションの順序を逸脱させる可能性が高く,評価時間を最大30倍に短縮できることを示した。同様の手順に従って,HumanEval と MBPP の2つの LLM 評価ベンチマークから構築した新しいプログラム出力予測MCデータセットである PythonIO も導入した。私たちのデータとコードはhttps://github.com/Geralt-Targaryen/MC-Evaluation.comで公開されています。

関連論文リスト

StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-16T10:54:31Z)
Improve MLLM Benchmark Efficiency through Interview [32.557448123464226]
大規模データに対する完全なカバレッジのQ&Aテストは、リソース集約的で時間を要する。より少ない質問を解き放つことで,MLLMのパフォーマンス指標を迅速に取得することを目的としたMLLMインタビュー戦略を提案する。
論文参考訳（メタデータ） (2025-06-01T07:51:15Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering [1.0874597293913013]
MCQA(Multiple Choice Question Answering)は、医学、法学、教育など、多くの現実世界の応用において重要な問題である。本稿では,データ生成とスコアリングに大規模言語モデルを用いる,シンプルで効果的な手法を提案する。提案手法では, 精度が28.9%から39.3%に向上し, 5ショットで直接微調整したベースラインに比べて10%以上向上した。
論文参考訳（メタデータ） (2024-12-13T02:48:36Z)
Escalating LLM-based Code Translation Benchmarking into the Class-level Era [20.22104136730419]
ClassEval-Tは、Large Language Models (LLM)向けのクラスレベルのコード変換ベンチマークである。 ClassEvalをベースに構築されたClassEval-Tは、JavaとC++に拡張され、完全なコードサンプルとテストスイートが提供される。
論文参考訳（メタデータ） (2024-11-09T11:13:14Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Towards Open-ended Visual Quality Comparison [87.45004129101089]
我々は、新しい大規模マルチモーダリティモデル(LMM)のエッジを拡張し、視覚的品質比較をオープンエンド設定に進める。 Co-Instructはオープンソースのビジュアル品質比較ツールだ。我々はCo-Instructが最先端のオープンソースLMMよりも平均30%高い精度で達成できることを実証した。
論文参考訳（メタデータ） (2024-02-26T15:10:56Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文参考訳（メタデータ） (2023-11-16T11:03:04Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
Parallel Approaches to Accelerate Bayesian Decision Trees [1.9728521995447947]
本稿では,MCMCにおける並列性を利用した2つの手法を提案する。第一に、MCMCを別の数値ベイズ的アプローチで置き換える。第2に、データのパーティショニングについて検討する。
論文参考訳（メタデータ） (2023-01-22T09:56:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。