論文の概要: A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard
- arxiv url: http://arxiv.org/abs/2211.07705v1
- Date: Mon, 24 Oct 2022 11:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 14:17:42.420843
- Title: A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard
- Title(参考訳): 建設コスト文書を国際建設評価基準に分類する機械学習手法
- Authors: J. Ignacio Deza, Hisham Ihshaish and Lamine Mahdjoubi
- Abstract要約: 原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first automated models for classifying natural language
descriptions provided in cost documents called "Bills of Quantities" (BoQs)
popular in the infrastructure construction industry, into the International
Construction Measurement Standard (ICMS). The models we deployed and
systematically evaluated for multi-class text classification are learnt from a
dataset of more than 50 thousand descriptions of items retrieved from 24 large
infrastructure construction projects across the United Kingdom. We describe our
approach to language representation and subsequent modelling to examine the
strength of contextual semantics and temporal dependency of language used in
construction project documentation. To do that we evaluate two experimental
pipelines to inferring ICMS codes from text, on the basis of two different
language representation models and a range of state-of-the-art sequence-based
classification methods, including recurrent and convolutional neural network
architectures. The findings indicate a highly effective and accurate ICMS
automation model is within reach, with reported accuracy results above 90% F1
score on average, on 32 ICMS categories. Furthermore, due to the specific
nature of language use in the BoQs text; short, largely descriptive and
technical, we find that simpler models compare favourably to achieving higher
accuracy results. Our analysis suggest that information is more likely embedded
in local key features in the descriptive text, which explains why a simpler
generic temporal convolutional network (TCN) exhibits comparable memory to
recurrent architectures with the same capacity, and subsequently outperforms
these at this task.
- Abstract(参考訳): 本稿では,インフラ建設業界で普及している"Bills of Quantities"(BoQ)と呼ばれるコスト資料で提供される自然言語記述を国際構築計測基準(ICMS)に分類する最初の自動モデルを紹介する。
マルチクラスのテキスト分類のためにデプロイし、体系的に評価したモデルは、イギリスの24の大規模インフラ建設プロジェクトから取得した50万件以上の項目のデータセットから学習される。
本稿では,建設プロジェクト資料における文脈意味論の強みと時間依存性を考察するため,言語表現とその後のモデリングに対する我々のアプローチについて述べる。
そこで本研究では,2つの異なる言語表現モデルと,再帰的および畳み込み型ニューラルネットワークアーキテクチャを含む最先端のシーケンスベース分類手法に基づいて,テキストからicmsコードを推定する2つの実験パイプラインを評価する。
その結果, ICMS の自動化モデルは, 平均 F1 スコア以上の精度で, 32 のICMS カテゴリにおいて, 極めて効果的で正確なモデルであることが示唆された。
さらに,BoQsテキストの言語使用の特徴から,より単純なモデルの方が精度の高い結果に好適に比較できることが判明した。
解析の結果,より単純な汎用的時間畳み込みネットワーク(TCN)が同じ能力を持つ再帰的アーキテクチャに匹敵するメモリを表現し,その結果,その性能を向上させる可能性が示唆された。
関連論文リスト
- Neural Architecture Search for Sentence Classification with BERT [4.862490782515929]
計算コストが小さいだけで,現在の単一層よりも優れたアーキテクチャを見つけるために,AutoML検索を実行します。
GLUEデータセットから,様々なNLPベンチマークを用いて分類アーキテクチャを検証する。
論文 参考訳(メタデータ) (2024-03-27T13:25:43Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - LLM2KB: Constructing Knowledge Bases using instruction tuned context
aware Large Language Models [0.8702432681310401]
本稿では,大規模言語モデルを用いた知識ベース構築システム LLM2KB を提案する。
ISWC 2023で開かれたLM-KBCチャレンジでは,21関係の平均F1スコアが0.6185に達した。
論文 参考訳(メタデータ) (2023-08-25T07:04:16Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Unified Text Structuralization with Instruction-tuned Language Models [28.869098023025753]
テキストから様々な構造を抽出する大規模言語モデル(LLM)を提案する。
実験により、様々な言語や知識のデータセット上で、言語モデルが他の最先端の手法と同等に動作できることが示されている。
論文 参考訳(メタデータ) (2023-03-27T07:39:05Z) - DeepStruct: Pretraining of Language Models for Structure Prediction [64.84144849119554]
テキストから構造を生成するために,タスクに依存しないコーパスの集合上で言語モデルを事前訓練する。
我々の構造事前学習は、モデルが構造タスクについて持っている学習知識のゼロショット転送を可能にする。
10Bパラメータ言語モデルがほとんどのタスクに非自明に転送し、28のデータセットのうち21の最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2022-05-21T00:58:22Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。