論文の概要: Alpha Excel Benchmark
- arxiv url: http://arxiv.org/abs/2505.04110v1
- Date: Wed, 07 May 2025 03:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.973122
- Title: Alpha Excel Benchmark
- Title(参考訳): Alpha Excel ベンチマーク
- Authors: David Noever, Forrest McKee,
- Abstract要約: 本研究では,FMWC(Financial Modeling World Cup)Excelコンペティションから得られた課題を用いて,LLM(Large Language Models)を評価するための新しいベンチマークを提案する。
本研究は,認識タスクの強みを示すが,複雑な数値推論に苦しむモデルを用いて,様々な課題カテゴリにおける性能の有意な変化を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study presents a novel benchmark for evaluating Large Language Models (LLMs) using challenges derived from the Financial Modeling World Cup (FMWC) Excel competitions. We introduce a methodology for converting 113 existing FMWC challenges into programmatically evaluable JSON formats and use this dataset to compare the performance of several leading LLMs. Our findings demonstrate significant variations in performance across different challenge categories, with models showing specific strengths in pattern recognition tasks but struggling with complex numerical reasoning. The benchmark provides a standardized framework for assessing LLM capabilities in realistic business-oriented tasks rather than abstract academic problems. This research contributes to the growing field of AI benchmarking by establishing proficiency among the 1.5 billion people who daily use Microsoft Excel as a meaningful evaluation metric that bridges the gap between academic AI benchmarks and practical business applications.
- Abstract(参考訳): 本研究では,FMWC(Financial Modeling World Cup)Excelコンペティションから得られた課題を用いて,LLM(Large Language Models)を評価するための新しいベンチマークを提案する。
本稿では,既存の113のFMWC課題をプログラム的に評価可能なJSONフォーマットに変換する手法を提案する。
本研究は,パターン認識タスクの強みを示すが,複雑な数値推論に苦しむモデルを用いて,様々な課題カテゴリにおける性能の有意な変化を示した。
このベンチマークは、抽象的な学術的問題ではなく、現実的なビジネス指向のタスクにおけるLLM能力を評価するための標準化されたフレームワークを提供する。
この研究は、学術的なAIベンチマークと実践的なビジネスアプリケーションの間のギャップを埋める有意義な評価指標としてMicrosoft Excelを毎日使っている15億人の人々の習熟度を確立することで、AIベンチマークの分野の成長に貢献している。
関連論文リスト
- Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving [1.5106583432923495]
本稿では,最新のLLMの性能を評価するための新しい評価手法であるLLM-ProSを提案する。
2011年から2024年までの166のワールドファイナル問題のデータセットを使用して、モデルの推論、正確性、効率をベンチマークします。
この結果から,新しい問題を一般化し,適応し,解決するモデルの能力に有意な差異が認められた。
論文 参考訳(メタデータ) (2025-02-04T18:55:14Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Evaluating the Performance of Large Language Models in Competitive Programming: A Multi-Year, Multi-Grade Analysis [0.0]
本研究は,ルーマニア語インフォマティクス・オリンピアード(Olympiad)における競合プログラミング問題の解法における大規模言語モデル(LLM)の性能について考察する。
2002年から2023年までの304の課題からなるデータセットを収集,分析した。
解析結果から,LLMの性能はグレードや問題の種類によって大きく異なっていた。
論文 参考訳(メタデータ) (2024-08-31T10:39:54Z) - Benchmarking Large Language Models for Math Reasoning Tasks [12.91916443702145]
我々は、4つの強力な基礎モデル上の5つの広く使われている数学的データセットの数学的問題解決のための、最先端の文脈内学習アルゴリズムを7つ比較した。
以上の結果から, GPT-4o や LLaMA 3-70B のような大規模基盤モデルでは, 具体的なプロンプト戦略とは独立に数学的推論を解くことが可能であることが示唆された。
将来の研究で追加モデルの統合をサポートするために、ベンチマークコードをオープンソースにしています。
論文 参考訳(メタデータ) (2024-08-20T13:34:17Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。