論文の概要: Automatic Building Code Review: A Case Study
- arxiv url: http://arxiv.org/abs/2510.02634v1
- Date: Fri, 03 Oct 2025 00:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.215496
- Title: Automatic Building Code Review: A Case Study
- Title(参考訳): 自動ビルドコードレビュー:ケーススタディ
- Authors: Hanlong Wan, Weili Xu, Michael Rosenberg, Jian Zhang, Aysha Siddika,
- Abstract要約: 建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.530899637501737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building officials, particularly those in resource-constrained or rural jurisdictions, face labor-intensive, error-prone, and costly manual reviews of design documents as projects increase in size and complexity. The growing adoption of Building Information Modeling (BIM) and Large Language Models (LLMs) presents opportunities for automated code review (ACR) solutions. This study introduces a novel agent-driven framework that integrates BIM-based data extraction with automated verification using both retrieval-augmented generation (RAG) and Model Context Protocol (MCP) agent pipelines. The framework employs LLM-enabled agents to extract geometry, schedules, and system attributes from heterogeneous file types, which are then processed for building code checking through two complementary mechanisms: (1) direct API calls to the US Department of Energy COMcheck engine, providing deterministic and audit-ready outputs, and (2) RAG-based reasoning over rule provisions, enabling flexible interpretation where coverage is incomplete or ambiguous. The framework was evaluated through case demonstrations, including automated extraction of geometric attributes (such as surface area, tilt, and insulation values), parsing of operational schedules, and validation of lighting allowances under ASHRAE Standard 90.1-2022. Comparative performance tests across multiple LLMs showed that GPT-4o achieved the best balance of efficiency and stability, while smaller models exhibited inconsistencies or failures. Results confirm that MCP agent pipelines outperform RAG reasoning pipelines in rigor and reliability. This work advances ACR research by demonstrating a scalable, interoperable, and production-ready approach that bridges BIM with authoritative code review tools.
- Abstract(参考訳): 建設担当者、特に資源制限や農村の管轄区域の職員は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的、エラーを起こし、手作業による設計文書のレビューに直面する。
ビルディングインフォメーション・モデリング(BIM)とLarge Language Models(LLM)の採用は、自動化コードレビュー(ACR)ソリューションの機会を提供する。
本研究では,BIMをベースとしたデータ抽出と,検索拡張生成(RAG)とモデルコンテキストプロトコル(MCP)の両方を用いた自動検証を統合する新しいエージェント駆動フレームワークを提案する。
このフレームワークはLCM対応エージェントを用いて、幾何学、スケジュール、システム属性を抽出し、2つの補完的なメカニズムを通してコードチェックを構築するために処理される。(1)米国エネルギー省のCOMcheckエンジンへの直接API呼び出し、決定的および監査可能な出力、(2)ルール規定に対するRAGベースの推論、そして、カバレッジが不完全または曖昧である柔軟な解釈を可能にする。
このフレームワークは、幾何学的属性の自動抽出(表面積、傾き、絶縁値など)、運用スケジュールの解析、ASHRAE標準90.1-2022の下での照明許容度検証など、ケースデモを通じて評価された。
複数のLCMを比較した性能試験の結果、GPT-4oは効率と安定性の最良のバランスを達成し、小型モデルは矛盾や失敗を示した。
その結果、MPPエージェントパイプラインはRAG推論パイプラインよりも厳格で信頼性が高いことが確認された。
この作業は、BIMを権威のあるコードレビューツールでブリッジするスケーラブルで相互運用性があり、プロダクション対応のアプローチを示すことで、ACRの研究を前進させる。
関連論文リスト
- AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition [27.312190686305588]
大規模言語モデル(LLM)は、自動スコアリングにおいて大きな可能性を示している。
エンド・ツー・エンドのレーダとしての使用は、低い正確性、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。
本稿では,多エージェント LLM フレームワークである AutoSCORE を提案する。
論文 参考訳(メタデータ) (2025-09-26T05:45:14Z) - Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability [0.6117371161379209]
大規模言語モデル(LLM)の展望は、動的でマルチエージェントなシステムへと急速にシフトします。
本稿では, トラクタブルな非対称な作業を実現するための検証フレームワークを提案する。
対象検定は全再生の12倍以上の速さで行うことができる。
論文 参考訳(メタデータ) (2025-09-14T03:30:06Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Large Language Model-Driven Code Compliance Checking in Building Information Modeling [3.2648052741820166]
本研究では,ビルディングインフォメーション・モデリングにおける手動コードコンプライアンスチェックの時間的およびエラーの原因となる特性について考察する。
この重要なプロセスを半自動化するために、LLM(Large Language Model)駆動のアプローチを導入している。
開発システムは、GPT、Claude、Gemini、LlamaなどのLLMとRevitソフトウェアを統合し、ビルドコードを解釈し、Pythonスクリプトを生成し、半自動コンプライアンスチェックを実行する。
論文 参考訳(メタデータ) (2025-06-25T15:50:34Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [43.66966457772646]
MA-RAGは、タスク認識推論でRAGパイプラインの各ステージに取り組むために、特別なAIエージェントの協力的なセットを編成する。
我々の設計では、モデルが微調整されることなく、情報の流れをきめ細かな制御が可能である。
このモジュラーおよび推論駆動アーキテクチャにより、MA-RAGは堅牢で解釈可能な結果を提供できる。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents [0.0]
本稿では,Large Language Model (LLM)エージェントと強化学習ドライバエージェントを利用して,一貫性のある自己改善抽出を自動化するエージェントAIシステムを提案する。
我々の研究は、モノリシックなLCMベースの抽出の限界を強調し、タスク固有のプロンプトを備えたモジュール化されたマルチエージェントフレームワークを導入しました。
この自己修正適応システムは、人間の介入なしに正確な情報抽出を自動化することを目的として、多様な文書、ファイル形式、レイアウト、LLMを処理する。
論文 参考訳(メタデータ) (2025-05-16T09:46:10Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。