論文の概要: CEQuest: Benchmarking Large Language Models for Construction Estimation
- arxiv url: http://arxiv.org/abs/2508.16081v1
- Date: Fri, 22 Aug 2025 04:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.24967
- Title: CEQuest: Benchmarking Large Language Models for Construction Estimation
- Title(参考訳): CEQuest: 構築推定のための大規模言語モデルのベンチマーク
- Authors: Yanzhao Wu, Lufan Wang, Rui Liu,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い汎用ドメインタスクで顕著な機能を示した。
しかし、建設などの専門分野におけるそれらの効果はいまだ未解明のままである。
本稿では,LLMの性能を評価するための新しいベンチマークデータセットCEQuestを紹介する。
- 参考スコア(独自算出の注目度): 3.929359686281298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of general-domain tasks. However, their effectiveness in specialized fields, such as construction, remains underexplored. In this paper, we introduce CEQuest, a novel benchmark dataset specifically designed to evaluate the performance of LLMs in answering construction-related questions, particularly in the areas of construction drawing interpretation and estimation. We conduct comprehensive experiments using five state-of-the-art LLMs, including Gemma 3, Phi4, LLaVA, Llama 3.3, and GPT-4.1, and evaluate their performance in terms of accuracy, execution time, and model size. Our experimental results demonstrate that current LLMs exhibit considerable room for improvement, highlighting the importance of integrating domain-specific knowledge into these models. To facilitate further research, we will open-source the proposed CEQuest dataset, aiming to foster the development of specialized large language models (LLMs) tailored to the construction domain.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い汎用ドメインタスクにまたがる顕著な機能を示している。
しかし、建設などの専門分野におけるそれらの効果はいまだ未解明のままである。
本稿では,建築関連問題,特に施工図面の解釈と推定の領域において,LLMの性能を評価するために設計された新しいベンチマークデータセットCEQuestを紹介する。
Gemma 3, Phi4, LLaVA, Llama 3.3, GPT-4.1を含む5つの最先端LLMを用いて総合的な実験を行い, 精度, 実行時間, モデルサイズの評価を行った。
実験の結果,現在のLLMは改善の余地があり,これらのモデルにドメイン固有の知識を統合することの重要性を強調した。
さらなる研究を容易にするため,提案するCEQuestデータセットをオープンソースとして公開し,建設領域に適した特殊大規模言語モデル(LLM)の開発を促進することを目的とする。
関連論文リスト
- Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey [49.1574468325115]
我々は総合的な調査を行い、LALM評価のための体系的な分類法を提案する。
各カテゴリの詳細な概要と,この分野の課題について紹介する。
調査した論文の収集を公表し、現在進行中の分野の発展を支援するため、積極的に維持していく。
論文 参考訳(メタデータ) (2025-05-21T19:17:29Z) - Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - Aggregated Knowledge Model: Enhancing Domain-Specific QA with Fine-Tuned and Retrieval-Augmented Generation Models [0.0]
本稿では,クローズドドメイン質問応答システム(QA)の新たなアプローチを提案する。
ローレンス・バークレー国立研究所(LBL)科学情報技術(ScienceIT)ドメインの特定のニーズに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-24T00:49:46Z) - Mining experimental data from Materials Science literature with Large Language Models: an evaluation study [1.9849264945671101]
本研究は,大規模言語モデル (LLM) の教材科学における科学的資料から構造化情報を抽出する能力を評価することを目的としている。
我々は,情報抽出における2つの重要な課題に焦点をあてる: (i) 研究材料と物性の名前を付けたエンティティ認識(NER) と, (ii) それらのエンティティ間の関係抽出(RE) である。
これらのタスクの実行におけるLCMの性能は、BERTアーキテクチャとルールベースのアプローチ(ベースライン)に基づいて従来のモデルと比較される。
論文 参考訳(メタデータ) (2024-01-19T23:00:31Z) - LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities [66.36633042421387]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。
我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文 参考訳(メタデータ) (2023-05-22T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。