論文の概要: EngChain: A Symbolic Benchmark for Verifiable Multi-Step Reasoning in Engineering
- arxiv url: http://arxiv.org/abs/2511.01650v1
- Date: Mon, 03 Nov 2025 15:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.306155
- Title: EngChain: A Symbolic Benchmark for Verifiable Multi-Step Reasoning in Engineering
- Title(参考訳): EngChain: エンジニアリングにおける検証可能なマルチステップ推論のためのシンボリックベンチマーク
- Authors: Ayesha Gull, Muhammad Usman Safder, Rania Elbadry, Preslav Nakov, Zhuohan Xie,
- Abstract要約: 検証可能な多段階エンジニアリング問題解決のためのベンチマークであるEngChainを紹介する。
EngChainには3つのエンジニアリングブランチにまたがる90の問題がある。
まず,各推論ステップの数値的および意味的妥当性を定量的に検証し,同定された推論誤りを定性的に分類する自動システム LLM-As-A-Judge を導入する。
- 参考スコア(独自算出の注目度): 42.520431569855475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being applied to specialized, high-stakes domains like engineering, which demands rigorous evaluation of their complex reasoning capabilities. While current benchmarks assess language understanding, factual recall, mathematics or code generation, none capture the integrative reasoning central to engineering where scientific principles, quantitative modeling and practical constraints must converge. To address this gap, we introduce EngChain, a benchmark for verifiable multi-step engineering problem-solving. EngChain contains 90 problems spanning three engineering branches, organized into 9 domains and 20 distinct areas. The problems are generated from symbolic templates with a high degree of randomization to ensure diversity and eliminate the risk of contamination. With this benchmark, we move beyond final answer accuracy with a two-stage evaluation: we first quantitatively verify the numerical and semantic validity of each reasoning step and then introduce LLM-As-A-Judge, an automated system to qualitatively categorize the identified reasoning errors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、エンジニアリングのような専門的で高度なドメインに適用されつつあり、複雑な推論能力を厳格に評価する必要がある。
現在のベンチマークでは、言語理解、事実的リコール、数学、コード生成を評価しているが、科学的原理、量的モデリング、実践的な制約が収束しなければならない工学の中心にある統合的推論を捉えるものはない。
このギャップに対処するために,多段階エンジニアリング問題解決のためのベンチマークであるEngChainを紹介する。
EngChainには3つのエンジニアリングブランチにまたがる90の問題がある。
これらの問題は、多様性を保証し、汚染のリスクを取り除くために、高いランダム化の度合いを持つシンボリックテンプレートから生成される。
このベンチマークでは、まず、各推論ステップの数値的および意味的妥当性を定量的に検証し、次に、同定された推論エラーを定性的に分類する自動システムLSM-As-A-Judgeを導入する。
関連論文リスト
- A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - EngiBench: A Benchmark for Evaluating Large Language Models on Engineering Problem Solving [37.708900742664184]
本稿では,工学的問題を解決する上で,大規模言語モデル(LLM)を評価する階層的なベンチマークであるEngiBenchを紹介する。
難易度(基礎知識検索、多段階の文脈推論、オープンエンドモデリング)の3段階に及び、多様なエンジニアリングサブフィールドをカバーする。
モデルはタスクが難しくなるにつれて苦労するし、問題がわずかに変化してもパフォーマンスが悪くなる。
論文 参考訳(メタデータ) (2025-09-22T12:20:27Z) - GRADE: Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation [5.002953635224383]
Retrieval-Augmented Generation (RAG) システムは知識集約型NLPタスクに広く採用されている。
現在の評価は、実世界のシナリオで必要とされる構造的な複雑さと多段階の推論を見落としていることが多い。
タスクの難易度を2次元でモデル化する新しい評価フレームワークであるtextscGRADEを提案する。
論文 参考訳(メタデータ) (2025-08-23T11:26:41Z) - OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。
本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文 参考訳(メタデータ) (2025-06-23T17:51:40Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。