論文の概要: Fine-Grained Benchmark Generation for Comprehensive Evaluation of Foundation Models
- arxiv url: http://arxiv.org/abs/2605.18824v1
- Date: Tue, 12 May 2026 17:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.362018
- Title: Fine-Grained Benchmark Generation for Comprehensive Evaluation of Foundation Models
- Title(参考訳): 基礎モデルの総合評価のための微粒化ベンチマーク生成
- Authors: Mohammed Saidul Islam, Negin Baghbanzadeh, Farnaz Kohankhaki, Afshin Cheraghi, Ali Kore, Shayaan Mehdi, Elham Dolatabadi, Arash Afkanpour,
- Abstract要約: 自動ベンチマーク生成のためのフレームワークを導入する。
機械学習、コーポレートファイナンス、パーソナリティファイナンスで3つのベンチマークを生成します。
間もなくフレームワークとキュレートされたベンチマークをオープンソースにします。
- 参考スコア(独自算出の注目度): 2.076450303699836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of foundation models often rely on aggregate scores from benchmarks that lack comprehensive coverage and metadata for a fine-grained evaluation. We introduce a framework for automated benchmark generation. Our framework generates evaluation problems grounded in reference material, such as textbooks, producing benchmarks with broad coverage, rich metadata, and robustness to contamination. The pipeline employs a multi-agent architecture for problem generation and a solution-graph-driven strategy that significantly improves the reliability of ground truth solutions. Using the framework, we generate three benchmarks in Machine Learning, Corporate Finance, and Personal Finance. Expert review finds a significantly lower ground-truth error rate than previous benchmarks such as MMLU and GSM8K. Evaluation of 12 commercial and open-source models shows that our benchmarks achieve near-uniform competency coverage and surface performance differences across models that existing benchmarks fail to capture. We will open-source the framework and our curated benchmarks soon.
- Abstract(参考訳): 基礎モデルの評価は、詳細な評価のために包括的なカバレッジとメタデータを欠いたベンチマークの集計スコアに依存することが多い。
自動ベンチマーク生成のためのフレームワークを導入する。
本フレームワークは,教科書,広範なカバレッジ,豊富なメタデータ,汚染に対する堅牢性などの基準資料に基づく評価問題を生成する。
このパイプラインは、問題生成のためのマルチエージェントアーキテクチャと、基底真理解の信頼性を大幅に向上させるソリューショングラフ駆動型戦略を採用している。
このフレームワークを使用して、機械学習、企業財務、個人財務の3つのベンチマークを生成します。
専門家のレビューでは、MMLUやGSM8Kといった以前のベンチマークよりも、地中真直ぐなエラー率が非常に低いことが判明した。
12の商用およびオープンソースモデルの評価は、我々のベンチマークが、既存のベンチマークが捉えられないモデル間で、ほぼ均一な能力カバレッジとパフォーマンスの相違を達成していることを示している。
間もなくフレームワークとキュレートされたベンチマークをオープンソースにします。
関連論文リスト
- IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks [32.00464870277127]
本稿では,分布の観点からベンチマークの信頼性について検討し,ベンチマークの調和を導入する。
高調和性は望ましいベンチマーク特性であり、凝集度がモデル間の均一なコンピテンスを反映していることを示している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
論文 参考訳(メタデータ) (2025-09-30T02:14:30Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - BenchAgents: Multi-Agent Systems for Structured Benchmark Creation [23.653678381444276]
BenchAgentsは評価ベンチマークの作成を自動化するフレームワークである。
BenchAgentsを使って、計画、制約満足度、因果推論に関連する機能を評価するベンチマークを作成します。
次に、これらのベンチマークを使用して、最先端のモデルを研究し、共通の障害モードとモデルの違いに関する新たな洞察を抽出します。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。