論文の概要: The ORCA Benchmark: Evaluating Real-World Calculation Accuracy in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.02589v2
- Date: Wed, 05 Nov 2025 10:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 13:56:26.195329
- Title: The ORCA Benchmark: Evaluating Real-World Calculation Accuracy in Large Language Models
- Title(参考訳): ORCAベンチマーク:大規模言語モデルにおける実世界の計算精度の評価
- Authors: Claudia Herambourg, Dawid Siuda, Julia Kopczyńska, Joao R. L. Santos, Wojciech Sas, Joanna Śmietańska-Nowak,
- Abstract要約: ORCAは、大規模言語モデル(LLM)を実生活の定量的推論で評価する新しいベンチマークである。
ChatGPT-5、Gemini2.5Flash、ClaudeSonnet4.5、Grok4、DeepSeekV3.2は45text--63,%の精度しか達成しなかった。
特定の領域における結果は、数学と工学の長所を示すが、物理学と自然科学の短所を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ORCA (Omni Research on Calculation in AI) Benchmark - a novel benchmark that evaluates large language models (LLMs) on multi-domain, real-life quantitative reasoning using verified outputs from Omni's calculator engine. In 500 natural-language tasks across domains such as finance, physics, health, and statistics, the five state-of-the-art systems (ChatGPT-5, Gemini~2.5~Flash, Claude~Sonnet~4.5, Grok~4, and DeepSeek~V3.2) achieved only $45\text{--}63\,\%$ accuracy, with errors mainly related to rounding ($35\,\%$) and calculation mistakes ($33\,\%$). Results in specific domains indicate strengths in mathematics and engineering, but weaknesses in physics and natural sciences. Correlation analysis ($r \approx 0.40\text{--}0.65$) shows that the models often fail together but differ in the types of errors they make, highlighting their partial complementarity rather than redundancy. Unlike standard math datasets, ORCA evaluates step-by-step reasoning, numerical precision, and domain generalization across real problems from finance, physics, health, and statistics.
- Abstract(参考訳): ORCA(Omni Research on Computing in AI)ベンチマークは,Omniの計算エンジンから得られた検証結果を用いて,多領域の実物量推論に基づく大規模言語モデル(LLM)を評価する新しいベンチマークである。
金融、物理学、健康、統計などの分野にまたがる500の自然言語タスクにおいて、5つの最先端システム(ChatGPT-5、Gemini~2.5~Flash、Claude~Sonnet~4.5、Grok~4、DeepSeek~V3.2)は45\text{-}63\,\%$の精度しか達成せず、ラウンドリング(35ドル、\%$)と計算ミス(33ドル、\%$)に主に関連する誤差がある。特定のドメインでの結果は、数学と工学の強みを示しているが、物理学と自然科学の弱点を示している。相関分析(r \approx 0.40\text{-}0.65ドル)は、モデルが一緒に失敗することが多いが、誤りのタイプが異なることを示している。
標準的な数学のデータセットとは異なり、ORCAは財務、物理学、健康、統計学といった実際の問題にまたがるステップバイステップの推論、数値精度、ドメインの一般化を評価している。
関連論文リスト
- StatEval: A Comprehensive Benchmark for Large Language Models in Statistics [18.64342811887586]
StatEvalは統計学に特化した最初の総合ベンチマークであり、難易度をまたいだ幅と深さの両方にまたがる。
学部と大学院のカリキュラムに関する13,817の基本的な問題と、主要な雑誌から抽出された2374の研究レベルの証明タスクで構成されている。
本稿では,算術的タスクと証明的タスクの両方に適したロバストな評価フレームワークを提案し,推論能力のきめ細かい評価を可能にする。
論文 参考訳(メタデータ) (2025-10-10T16:28:43Z) - FRED: Financial Retrieval-Enhanced Detection and Editing of Hallucinations in Language Models [1.9894117371899613]
大規模言語モデルにおける幻覚は、事実的信頼性を必要とするアプリケーションにとって重要な課題である。
本研究は,モデル生成応答における事実的誤りコンテンツの検出と編集に有効な手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T15:41:53Z) - Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models [6.312798900093575]
大規模言語モデル (LLM) は複雑な数学的ベンチマークでは優れた性能を得るが、基本的な数学的推論では失敗することがある。
本稿では,正確さと過度に考えることの基本的なトレードオフに焦点を当てる。
本研究は,総合モデル評価のための高精度とトークン効率を組み合わせた調和平均計量であるOverthinking Scoreを紹介する。
論文 参考訳(メタデータ) (2025-07-05T12:31:17Z) - Evaluation of LLMs for mathematical problem solving [1.6811789875704863]
大規模言語モデル(LLM)は、様々な教育課題において優れた性能を示してきたが、数学的な問題を解く可能性についてはまだ検討されていない。
我々は,GPT-4o,DeepSeek-V3,Gemini-2.0の3つの数学データセットを比較した。
GPT-4oはすべてのデータセットで最も安定しており、パフォーマンスに一貫性があるが、特にMIT Open Coursewareデータセットのハイレベルな質問では際立っている。
論文 参考訳(メタデータ) (2025-05-30T23:37:37Z) - UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models [11.964085209696051]
UGMathBenchは16の被験者5,062の課題と111のトピックで構成され、10の異なる回答タイプが特徴である。
それぞれの問題には3つのランダム化バージョンが含まれており、主要なオープンソース LLM が UGMathBench で飽和するにつれて、リリースに向けて追加バージョンが計画されている。
LLMを23個評価した結果, OpenAI-o1-mini による EAcc のロバスト性は 56.3% であり,それぞれ異なるモデルで大きな$Delta$値が観測された。
論文 参考訳(メタデータ) (2025-01-23T15:46:43Z) - Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。