Fugu-MT 論文翻訳(概要): LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient

論文の概要: LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient

arxiv url: http://arxiv.org/abs/2502.01683v1
Date: Sun, 02 Feb 2025 06:36:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.462962
Title: LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient
Title（参考訳）: LLMベースのベンチマークファクトリ:信頼性、ジェネリック、効率性
Authors: Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Yueqi Zhang, Jiayi Shi, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li,
Abstract要約: 我々は,4次元と10の基準で構成された,自動的かつ偏りのない評価フレームワークを提案する。本フレームワークでは,大規模言語モデル(LLM)を汎用ベンチマークジェネレータとして直接プロンプトする利点と弱点を解析する。次に、識別された弱点に対処し、それらをBenchMakerとして統合する一連の方法を紹介します。実験により、BenchMakerは、すべてのメトリクスにおいて、人による注釈付きベンチマークよりも優れた、あるいは同等のパフォーマンスを達成することが確認された。
参考スコア（独自算出の注目度）: 19.673388630963807
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of large language models (LLMs) has led to a surge in both model supply and application demands. To facilitate effective matching between them, reliable, generic and efficient benchmark generators are widely needed. However, human annotators are constrained by inefficiency, and current LLM benchmark generators not only lack generalizability but also struggle with limited reliability, as they lack a comprehensive evaluation framework for validation and optimization. To fill this gap, we first propose an automated and unbiased evaluation framework, structured around four dimensions and ten criteria. Under this framework, we carefully analyze the advantages and weaknesses of directly prompting LLMs as generic benchmark generators. To enhance the reliability, we introduce a series of methods to address the identified weaknesses and integrate them as BenchMaker. Experiments across multiple LLMs and tasks confirm that BenchMaker achieves superior or comparable performance to human-annotated benchmarks on all metrics, highlighting its generalizability and reliability. More importantly, it delivers highly consistent evaluation results across 12 LLMs (0.967 Pearson correlation against MMLU-Pro), while taking only $0.005 and 0.38 minutes per sample.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩により、モデル供給とアプリケーション需要の両方が急増した。それら間の効果的なマッチングを容易にするために、信頼性が高く、ジェネリックで効率的なベンチマークジェネレータが広く必要である。しかしながら、人間のアノテータは非効率性によって制約されており、現在のLLMベンチマークジェネレータは一般化性に欠けるだけでなく、検証と最適化のための包括的な評価フレームワークが欠如しているため、信頼性に乏しい。このギャップを埋めるために、まず4次元と10の基準で構成された、自動化され偏りのない評価フレームワークを提案する。本フレームワークでは,LLMを汎用ベンチマークジェネレータとして直接的にプロンプトする利点と弱点を慎重に分析する。信頼性を高めるために、同定された弱点に対処し、それらをBenchMakerとして統合する一連の手法を導入する。複数のLDMとタスクにわたる実験により、BenchMakerは、すべてのメトリクスで人による注釈付きベンチマークよりも優れた、あるいは同等のパフォーマンスを達成し、その一般化性と信頼性を強調している。さらに重要なことは、12 LLM (0.967 Pearson correlation against MMLU-Pro) に対して非常に一貫した評価結果を提供する一方で、1サンプルあたり0.005ドルと0.38分しかかからない。

関連論文リスト

Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文参考訳（メタデータ） (2025-11-09T03:38:29Z)
TRUEBench: Can LLM Response Meet Real-world Constraints as Productivity Assistant? [11.400738388392654]
大規模言語モデル(LLM)は生産性アシスタントとしてますます統合されている。既存のベンチマークは、実世界の命令追跡能力を厳格に評価するに足りていない。 LLMベースの生産性アシスタント用に特別に設計されたベンチマークであるTRUEBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T08:05:32Z)
Importance Sampling is All You Need: Predict LLM's performance on new benchmark by reusing existing benchmark [38.42021928363628]
既存のベンチマークは、(1)高品質なテストスイートと参照ソリューションを構築するためのエスカレートコスト、(2)データ汚染のリスクの増加という2つの大きな課題に直面している。我々は,コード生成タスク上でのLLM性能のゼロトラストフリー予測を可能にする,プロンプト中心評価フレームワークであるBISを提案する。本フレームワークでは,コード正当性スコアの平均絶対誤差が1.1%であり,それぞれ0.3%,最悪のエラーが1.9%である。
論文参考訳（メタデータ） (2025-08-02T05:34:05Z)
TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-31T07:43:12Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Can You Trust LLM Judgments? Reliability of LLM-as-a-Judge [0.3759936323189418]
大規模言語モデル(LLM)はますます強力でユビキタスなものになってきていますが、その性質はアウトプットの信頼性に課題をもたらします。マクドナルドのオメガを利用したLCM判定の信頼性を厳格に評価するための新しい枠組みを提案する。
論文参考訳（メタデータ） (2024-12-17T03:37:31Z)
HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。 NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文参考訳（メタデータ） (2024-10-03T17:20:11Z)
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文参考訳（メタデータ） (2024-06-03T05:47:05Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。