論文の概要: CODE-ACCORD: A Corpus of building regulatory data for rule generation towards automatic compliance checking
- arxiv url: http://arxiv.org/abs/2403.02231v4
- Date: Tue, 18 Feb 2025 11:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:00:55.092686
- Title: CODE-ACCORD: A Corpus of building regulatory data for rule generation towards automatic compliance checking
- Title(参考訳): CODE-ACCORD:自動コンプライアンスチェックに向けたルール生成のための規制データ構築コーパス
- Authors: Hansi Hettiarachchi, Amna Dridi, Mohamed Medhat Gaber, Pouyan Parsafard, Nicoleta Bocaneala, Katja Breitenfelder, Gonçal Costa, Maria Hedblom, Mihaela Juganaru-Mathieu, Thamer Mecharnia, Sumee Park, He Tan, Abdel-Rahman H. Tawil, Edlira Vakaj,
- Abstract要約: CODE-ACCORD (CODE-ACCORD) は、イングランドとフィンランドの建築規則に基づく852の文のデータセットである。
テキスト分類、エンティティ認識、関係抽出など、MLおよび自然言語処理(NLP)タスクをサポートする。
- 参考スコア(独自算出の注目度): 1.9950441865030422
- License:
- Abstract: Automatic Compliance Checking (ACC) within the Architecture, Engineering, and Construction (AEC) sector necessitates automating the interpretation of building regulations to achieve its full potential. Converting textual rules into machine-readable formats is challenging due to the complexities of natural language and the scarcity of resources for advanced Machine Learning (ML). Addressing these challenges, we introduce CODE-ACCORD, a dataset of 862 sentences from the building regulations of England and Finland. Only the self-contained sentences, which express complete rules without needing additional context, were considered as they are essential for ACC. Each sentence was manually annotated with entities and relations by a team of 12 annotators to facilitate machine-readable rule generation, followed by careful curation to ensure accuracy. The final dataset comprises 4,297 entities and 4,329 relations across various categories, serving as a robust ground truth. CODE-ACCORD supports a range of ML and Natural Language Processing (NLP) tasks, including text classification, entity recognition, and relation extraction. It enables applying recent trends, such as deep neural networks and large language models, to ACC.
- Abstract(参考訳): アーキテクチャ、エンジニアリング、建設(AEC)分野における自動コンプライアンスチェック(ACC)は、その潜在能力を達成するために、建築規制の解釈を自動化する必要がある。
自然言語の複雑さと高度な機械学習(ML)のためのリソース不足のため、テキストルールを機械可読形式に変換することは難しい。
これらの課題に対処するため、イギリスとフィンランドの建築規制から852文のデータセットであるCODE-ACCORDを紹介した。
ACCに不可欠なのは、追加の文脈を必要とせずに完全なルールを表現した自己完結文のみである。
各文は、機械可読なルール生成を促進するため、12のアノテータからなるチームによって、エンティティと関係を手動で注釈付けされ、その後、正確性を確保するために慎重にキュレーションされた。
最終データセットは4,297個のエンティティと4,329個のカテゴリからなる。
CODE-ACCORDは、テキスト分類、エンティティ認識、関係抽出など、MLおよび自然言語処理(NLP)タスクの範囲をサポートする。
これは、深層ニューラルネットワークや大規模言語モデルといった最近のトレンドをACCに適用することを可能にする。
関連論文リスト
- RIRAG: Regulatory Information Retrieval and Answer Generation [51.998738311700095]
本稿では,質問を自動生成し,関連する規制通路と組み合わせる,問合せペアを生成するタスクを紹介する。
我々は、Abu Dhabi Global Markets (ADGM) の財務規制文書から得られた27,869の質問を含むObliQAデータセットを作成する。
本稿では,RIRAG(Regulation Information Retrieval and Answer Generation)システムをベースラインとして設計し,新しい評価基準であるRePASを用いて評価する。
論文 参考訳(メタデータ) (2024-09-09T14:44:19Z) - Using Large Language Models for the Interpretation of Building Regulations [7.013802453969655]
大規模言語モデル(LLM)は、ユーザのプロンプトに応答する論理的に一貫性のあるテキストとソースコードを生成することができる。
本稿では, 建物規制をLegalRuleMLに変換する際のLLMの性能を, 数ショットの学習設定で評価する。
論文 参考訳(メタデータ) (2024-07-26T08:30:47Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - A Text Classification-Based Approach for Evaluating and Enhancing the
Machine Interpretability of Building Codes [9.730183895717056]
本研究では,単一節の機械解釈可能性を自動評価し,拡張するための新しい手法を提案する。
実験の結果,提案したテキスト分類アルゴリズムは既存のCNN法やRNN法よりも優れていた。
中国における150以上の建築コードの結果を分析した結果、平均的な解釈可能性(英語版)は34.40%であった。
論文 参考訳(メタデータ) (2023-09-24T11:36:21Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - COLLIE: Systematic Construction of Constrained Text Generation Tasks [33.300039566331876]
COLLIEは文法ベースのフレームワークで、多種多様な世代レベルのリッチで構成的な制約を仕様化することができる。
本研究では,制約構造と生テキストコーパスが与えられたタスクインスタンスの自動抽出ツールを開発する。
我々は、最先端の5つの言語モデルに対して体系的な実験を行い、その性能を分析し、欠点を明らかにする。
論文 参考訳(メタデータ) (2023-07-17T17:48:51Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - SPaR.txt, a cheap Shallow Parsing approach for Regulatory texts [6.656036869700669]
本研究では,学習データが比較的安価に作成できる浅層解析タスクを提案する。
手動による評価により, 建築規制文書の集合において, 定義項の89,84%が定義されていることがわかった。
論文 参考訳(メタデータ) (2021-10-04T10:00:22Z) - Lexically-constrained Text Generation through Commonsense Knowledge
Extraction and Injection [62.071938098215085]
我々は、ある入力概念のセットに対して妥当な文を生成することを目的としているcommongenベンチマークに焦点を当てる。
生成したテキストの意味的正しさを高めるための戦略を提案する。
論文 参考訳(メタデータ) (2020-12-19T23:23:40Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。