論文の概要: Engineering Reasoning and Instruction (ERI) Benchmark: A Large Taxonomy-driven Dataset for Foundation Models and Agents
- arxiv url: http://arxiv.org/abs/2603.02239v1
- Date: Mon, 16 Feb 2026 12:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.105971
- Title: Engineering Reasoning and Instruction (ERI) Benchmark: A Large Taxonomy-driven Dataset for Foundation Models and Agents
- Title(参考訳): 工学推論とインストラクション(ERI)ベンチマーク:基礎モデルとエージェントのための大規模な分類学駆動データセット
- Authors: MZ Naser, Ahmad Bani Awwad, Zoie McCreery, Radwa Eissa, Ahmad Naser, Gianluca Cusatis, Andrew Metcalf, Kapil Madathil, Jamal Abdalla, Venkatesh Kodur, Mohammad Reza Saeb,
- Abstract要約: Engineering Reasoning and Instruction (ERI) ベンチマークは、工学能力のある大規模言語モデル(LLM)とエージェントをトレーニングし、評価するために設計された分類による命令データセットである。
このデータセットは、9つの工学分野(土木、機械、電気、化学、環境、航空宇宙、材料、火、産業工学)と55に及び、7つの目的タイプ(定義、説明、計算、比較、設計/合成、トラブルシューティング、コード関連)と3つの困難層(学部、卒業生、プロフェッショナル)にまたがる。
ERIは、分類仕様、検証スクリプト、評価ハーネスと共にリリースされている。
- 参考スコア(独自算出の注目度): 1.629288881045104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Engineering Reasoning and Instruction (ERI) benchmark is a taxonomy-driven instruction dataset designed to train and evaluate engineering-capable large language models (LLMs) and agents. This dataset spans nine engineering fields (namely: civil, mechanical, electrical, chemical, environmental, aerospace, materials, fire, and industrial engineering) and 55 subdomains, and is crossed with seven intent types (i.e., definition, explanation, calculation, comparison, design/synthesis, troubleshooting, and code-related) and three difficulty tiers (undergraduate, graduate, and professional), yielding 57,750 records with field/subdomain/type/difficulty metadata and solution formatting. We examined ERI via seven LLMs and report a statistically significant three-tier performance structure, with frontier models (GPT-5, Claude Sonnet 4, DeepSeek V3.1) achieving mean scores above 4.30 on a five-point scale, while mid-tier and smaller models exhibited progressively higher failure rates and steeper performance degradation on graduate-level questions. To address circularity concerns inherent in LLM benchmarks, we developed a convergent validation protocol that leverages cross-provider independence, multi-judge averaging, and frontier-model agreement analysis to empirically bound hallucination risk to 1.7%. ERI is released with taxonomy specifications, validation scripts, and an evaluation harness to enable reproducible comparisons and regression testing for instruction tuning, routing, retrieval-augmented evaluation, and agentic tool-use workflows in engineering settings.
- Abstract(参考訳): Engineering Reasoning and Instruction (ERI)ベンチマークは、エンジニアリング対応の大規模言語モデル(LLM)とエージェントをトレーニングし、評価するために設計された分類に基づく命令データセットである。
このデータセットは、9つの工学分野(土木、機械、電気、化学、環境、航空宇宙、材料、火、産業工学)と55のサブドメインにまたがっており、定義、説明、計算、比較、設計/合成、トラブルシューティング、コード関連)と3つの困難層(学部、大学院、専門職)に分かれ、フィールド/サブドメイン/タイプ/分散メタデータとソリューションフォーマットで57,750レコードを出力している。
ERIを7 LLMを用いて検討し,フロンティアモデル(GPT-5,Claude Sonnet 4,DeepSeek V3.1)を用いて5点スケールで平均スコアを4.30以上達成した。
LLMベンチマークに固有の円形性問題に対処するため,クロスプロジェクタ独立性,マルチジャッジ平均化,フロンティアモデル合意分析を利用した収束検証プロトコルを開発し,幻覚リスクを1.7%に限定した。
ERIは、分類仕様、検証スクリプト、そして、エンジニアリング設定における命令チューニング、ルーティング、検索強化評価、エージェントツール使用ワークフローの再現可能な比較と回帰テストを可能にする評価ハーネスとともにリリースされている。
関連論文リスト
- TSAQA: Time Series Analysis Question And Answering Benchmark [85.35545785252309]
時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。
TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
論文 参考訳(メタデータ) (2026-01-30T17:28:56Z) - DSBC : Data Science task Benchmarking with Context engineering [0.0]
データサイエンスエージェントとの実際のユーザインタラクションを反映するベンチマークを導入する。
3つのアプローチで3つの大規模言語モデル(LLM)を評価する。
論文 参考訳(メタデータ) (2025-07-31T08:32:37Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。