論文の概要: Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams
- arxiv url: http://arxiv.org/abs/2504.08779v1
- Date: Fri, 04 Apr 2025 18:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:34:54.684030
- Title: Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams
- Title(参考訳): AIマスタ構築管理(CM)は可能か?CM認定試験における最先端の大規模言語モデルのベンチマーク
- Authors: Ruoxin Xiong, Yanyu Wang, Suat Gunhan, Yimin Zhu, Charles Berryman,
- Abstract要約: CMExamSetは,全国認定の4つのCM認定試験から689の質問を正解したベンチマークデータセットである。
その結果、GPT-4o と Claude 3.7 は、平均精度が82%、Claude 3.7 が83%である。
概念的誤解は最も一般的なものであり、拡張されたドメイン固有の推論モデルの必要性を暗示している。
- 参考スコア(独自算出の注目度): 2.897171041611256
- License:
- Abstract: The growing complexity of construction management (CM) projects, coupled with challenges such as strict regulatory requirements and labor shortages, requires specialized analytical tools that streamline project workflow and enhance performance. Although large language models (LLMs) have demonstrated exceptional performance in general reasoning tasks, their effectiveness in tackling CM-specific challenges, such as precise quantitative analysis and regulatory interpretation, remains inadequately explored. To bridge this gap, this study introduces CMExamSet, a comprehensive benchmarking dataset comprising 689 authentic multiple-choice questions sourced from four nationally accredited CM certification exams. Our zero-shot evaluation assesses overall accuracy, subject areas (e.g., construction safety), reasoning complexity (single-step and multi-step), and question formats (text-only, figure-referenced, and table-referenced). The results indicate that GPT-4o and Claude 3.7 surpass typical human pass thresholds (70%), with average accuracies of 82% and 83%, respectively. Additionally, both models performed better on single-step tasks, with accuracies of 85.7% (GPT-4o) and 86.7% (Claude 3.7). Multi-step tasks were more challenging, reducing performance to 76.5% and 77.6%, respectively. Furthermore, both LLMs show significant limitations on figure-referenced questions, with accuracies dropping to approximately 40%. Our error pattern analysis further reveals that conceptual misunderstandings are the most common (44.4% and 47.9%), underscoring the need for enhanced domain-specific reasoning models. These findings underscore the potential of LLMs as valuable supplementary analytical tools in CM, while highlighting the need for domain-specific refinements and sustained human oversight in complex decision making.
- Abstract(参考訳): 建設管理(CM)プロジェクトの複雑さは、厳格な規制要件や労働不足といった課題と相まって、プロジェクトのワークフローを効率化し、パフォーマンスを向上する専門的な分析ツールを必要とする。
大規模言語モデル(LLM)は、一般的な推論タスクにおいて例外的な性能を示したが、正確な量的分析や規制解釈といったCM固有の課題に対処する効果は、いまだに不十分である。
このギャップを埋めるために,全国で認定された4つのCM認定試験から得られた689の真正な多重選択質問からなる総合的なベンチマークデータセットであるCMExamSetを紹介した。
ゼロショット評価では、全体精度、対象領域(例えば、建設安全)、推論複雑性(単一ステップ、複数ステップ)、質問形式(テキストのみ、図形参照、テーブル参照)を評価する。
その結果、GPT-4o と Claude 3.7 は、平均精度が82%、Claude 3.7 が83%であった。
さらに、両モデルともシングルステップで85.7%(GPT-4o)と86.7%(Claude 3.7)の精度で性能が向上した。
マルチステップタスクはより困難で、それぞれ76.5%と77.6%に性能が低下した。
さらに、両者のLLMは、図式参照質問に対して重大な制限を示し、アキュラシーはおよそ40%まで低下した。
我々の誤りパターン分析により、概念的誤解が最も多い(44.4%と47.9%)ことが明らかになり、拡張されたドメイン固有推論モデルの必要性が強調された。
これらの知見は, LLMをCMにおける有用な補助的分析ツールとしての可能性を強調しつつ, 複雑な意思決定において, ドメイン特異的な改善の必要性と人間の監視を持続させることを強調した。
関連論文リスト
- RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises [41.39610589639382]
本稿では,677質問を慎重に整理したデータセットであるRuozhiBenchについて紹介する。
我々は,LuozhiBench上の5シリーズから17の大規模言語モデル (LLM) を評価する。
LLMは論理的誤りを検出・推論する能力に限界を示し、最も優れたモデルであるClaude-3-haikuでさえも90%以上のヒトと比較して62%の精度しか達成できなかった。
論文 参考訳(メタデータ) (2025-02-18T18:47:11Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - LLM4DS: Evaluating Large Language Models for Data Science Code Generation [0.0]
本稿では、Microsoft Copilot(GPT-4 Turbo)、ChatGPT(o1-preview)、Claude(3.5 Sonnet)、Perplexity Labs(Llama-3.1-70b-instruct)の4つの主要なAIアシスタントの性能を実証的に評価する。
すべてのモデルが50%の成功率を超え、ランダムなチャンスを超えた能力が確認された。
ChatGPTは様々な難易度で一貫した性能を示し、クロードの成功率はタスクの複雑さによって変動した。
論文 参考訳(メタデータ) (2024-11-16T18:43:26Z) - Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering [9.559203170987598]
建設は依然として最も危険な分野の1つである。
AIの最近の進歩、特にLarge Language Models (LLMs)は、職場の安全性を高めるための有望な機会を提供する。
本研究は、認定安全専門家委員会(BCSP)が実施する3つの基準試験において、広く使用されている2つのLCM(GPT-3.5とGPT-4o)の性能を評価する。
論文 参考訳(メタデータ) (2024-11-13T04:06:09Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - GroundCocoa: A Benchmark for Evaluating Compositional & Conditional Reasoning in Language Models [14.108788704400643]
GroundCocoa(グラウンドココア)は、これらの推論スキルをフライト予約の現実的な問題に結びつける、語彙的に多様なベンチマークである。
私たちのタスクは、詳細なユーザの好みと、複数の選択形式で提示される利用可能なフライトオプションを整合させることです。
GPT-4 Turboは, 先進的なプロンプト技術にもかかわらず精度が67%を超えなかった。
論文 参考訳(メタデータ) (2024-04-05T17:36:26Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web [69.6913064185993]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。