論文の概要: Title block detection and information extraction for enhanced building drawings search
- arxiv url: http://arxiv.org/abs/2504.08645v1
- Date: Fri, 11 Apr 2025 15:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:58.244736
- Title: Title block detection and information extraction for enhanced building drawings search
- Title(参考訳): 建物図面検索のための文字ブロック検出と情報抽出
- Authors: Alessio Lombardi, Li Duan, Ahmed Elnagar, Ahmed Zaalouk, Khalid Ismail, Edlira Vakaj,
- Abstract要約: 描画のタイトルブロック部に格納された情報を活用することにより、描画検索を簡素化することができる。
この研究は、この種のIEタスクの既存のメソッドの比較を行い、新しいタイトルブロック検出とIEパイプラインを提案する。
パイプラインは、軽量な畳み込みニューラルネットワークとGPT-4oを組み合わせることで得られる。
- 参考スコア(独自算出の注目度): 0.5937476291232802
- License:
- Abstract: The architecture, engineering, and construction (AEC) industry still heavily relies on information stored in drawings for building construction, maintenance, compliance and error checks. However, information extraction (IE) from building drawings is often time-consuming and costly, especially when dealing with historical buildings. Drawing search can be simplified by leveraging the information stored in the title block portion of the drawing, which can be seen as drawing metadata. However, title block IE can be complex especially when dealing with historical drawings which do not follow existing standards for uniformity. This work performs a comparison of existing methods for this kind of IE task, and then proposes a novel title block detection and IE pipeline which outperforms existing methods, in particular when dealing with complex, noisy historical drawings. The pipeline is obtained by combining a lightweight Convolutional Neural Network and GPT-4o, the proposed inference pipeline detects building engineering title blocks with high accuracy, and then extract structured drawing metadata from the title blocks, which can be used for drawing search, filtering and grouping. The work demonstrates high accuracy and efficiency in IE for both vector (CAD) and hand-drawn (historical) drawings. A user interface (UI) that leverages the extracted metadata for drawing search is established and deployed on real projects, which demonstrates significant time savings. Additionally, an extensible domain-expert-annotated dataset for title block detection is developed, via an efficient AEC-friendly annotation workflow that lays the foundation for future work.
- Abstract(参考訳): 建築、工学、建設(AEC)産業は、建設、保守、コンプライアンス、エラーチェックのために図面に格納された情報に大きく依存している。
しかし、建築図面からの情報抽出(IE)は、特に歴史的建造物を扱う場合、時間と費用がかかることが多い。
描画メタデータとして見ることのできる、描画のタイトルブロック部分に格納された情報を活用することにより、描画検索を簡素化することができる。
しかし、タイトルブロックIEは、特に既存の統一基準に従わない歴史図面を扱う場合、複雑になる可能性がある。
この研究は、この種のIEタスクの既存のメソッドの比較を行い、特に複雑でノイズの多い歴史的図面を扱う際に、既存のメソッドよりも優れた新しいタイトルブロック検出とIEパイプラインを提案する。
このパイプラインは軽量な畳み込みニューラルネットワークとGPT-4oを組み合わせたもので,提案した推論パイプラインは,ビルドエンジニアリングのタイトルブロックを高精度に検出し,タイトルブロックから構造化された描画メタデータを抽出し,検索,フィルタリング,グループ化に使用することができる。
この研究は、ベクトル (CAD) と手描き (歴史) の描画において、IE において高い精度と効率を示す。
抽出したメタデータを利用して検索を描画するユーザインターフェース(UI)が確立され、実際のプロジェクトにデプロイされる。
さらに、タイトルブロック検出のための拡張可能なドメインエキスパートアノテーション付きデータセットが、将来の作業の基盤となる効率的なAECフレンドリなアノテーションワークフローを介して開発されている。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Advanced Knowledge Extraction of Physical Design Drawings, Translation and conversion to CAD formats using Deep Learning [0.0]
本研究では,ディープラーニング手法を利用した革新的な手法を提案する。
このアプローチでは、物理的な描画オブジェクトを検出するために、Yolov7やFaster R-CNNといったオブジェクト検出モデルを採用している。
光文字認識(OCR)ツールは、図面からテキスト要素を識別して抽出するために統合される。
論文 参考訳(メタデータ) (2024-03-17T18:06:06Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Cost-effective End-to-end Information Extraction for Semi-structured
Document Images [9.454149895659823]
既存のパイプラインベースのIEシステムからエンドツーエンドシステムに移行する取り組みについて紹介する。
文書IEをシーケンシャル生成タスクとして慎重に定式化することにより、単一エンドツーエンドのIEシステムを構築でき、しかも有能な性能を実現することができることを示す。
論文 参考訳(メタデータ) (2021-04-16T11:37:39Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。