論文の概要: From Drawings to Decisions: A Hybrid Vision-Language Framework for Parsing 2D Engineering Drawings into Structured Manufacturing Knowledge
- arxiv url: http://arxiv.org/abs/2506.17374v1
- Date: Fri, 20 Jun 2025 17:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.391347
- Title: From Drawings to Decisions: A Hybrid Vision-Language Framework for Parsing 2D Engineering Drawings into Structured Manufacturing Knowledge
- Title(参考訳): 図面から決定へ:2Dエンジニアリング図を構造化製造知識に解析するためのハイブリッドビジョン言語フレームワーク
- Authors: Muhammad Tayyab Khan, Lequn Chen, Zane Yong, Jun Ming Tan, Wenhe Feng, Seung Ki Moon,
- Abstract要約: 2Dエンジニアリング図面からの重要な情報は、デジタル製造の進歩に不可欠である。
手動の抽出は遅く、労働集約的であるが、一般的なOCRモデルは複雑なレイアウト、エンジニアリングシンボル、回転テキストのために失敗することが多い。
回転認識オブジェクト検出モデル(YOLOv11-obb)とトランスフォーマーに基づく視覚言語モデル(VLM)を統合するハイブリッドビジョン言語フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient and accurate extraction of key information from 2D engineering drawings is essential for advancing digital manufacturing workflows. Such information includes geometric dimensioning and tolerancing (GD&T), measures, material specifications, and textual annotations. Manual extraction is slow and labor-intensive, while generic OCR models often fail due to complex layouts, engineering symbols, and rotated text, leading to incomplete and unreliable outputs. These limitations result in incomplete and unreliable outputs. To address these challenges, we propose a hybrid vision-language framework that integrates a rotation-aware object detection model (YOLOv11-obb) with a transformer-based vision-language parser. Our structured pipeline applies YOLOv11-OBB to localize annotations and extract oriented bounding box (OBB) patches, which are then parsed into structured outputs using a fine-tuned, lightweight vision-language model (VLM). We curate a dataset of 1,367 2D mechanical drawings annotated across nine key categories. YOLOv11-OBB is trained on this dataset to detect OBBs and extract annotation patches. These are parsed using two open-source VLMs: Donut and Florence-2. Both models are lightweight and well-suited for specialized industrial tasks under limited computational overhead. Following fine-tuning of both models on the curated dataset of image patches paired with structured annotation labels, a comparative experiment is conducted to evaluate parsing performance across four key metrics. Donut outperforms Florence-2, achieving 88.5% precision, 99.2% recall, and a 93.5% F1-score, with a hallucination rate of 11.5%. Finally, a case study demonstrates how the extracted structured information supports downstream manufacturing tasks such as process and tool selection, showcasing the practical utility of the proposed framework in modernizing 2D drawing interpretation.
- Abstract(参考訳): 2次元工学図面から鍵情報を効率よく正確に抽出することは、デジタル製造ワークフローの進展に不可欠である。
このような情報には、幾何次元とトレランス(GD&T)、測度、材料仕様、テキストアノテーションが含まれる。
手動の抽出は遅く、労働集約的であるが、一般的なOCRモデルは複雑なレイアウト、エンジニアリングシンボル、回転されたテキストのために失敗し、不完全で信頼性の低い出力となる。
これらの制限は不完全で信頼できない出力をもたらす。
これらの課題に対処するために、回転認識オブジェクト検出モデル(YOLOv11-obb)をトランスフォーマーベースの視覚言語パーサと統合したハイブリッドビジョン言語フレームワークを提案する。
構造化パイプラインはYOLOv11-OBBを使用してアノテーションをローカライズし、オブジェクト指向境界ボックス(OBB)パッチを抽出し、微調整された軽量視覚言語モデル(VLM)を用いて構造化出力に解析する。
我々は9つの主要なカテゴリで注釈付けされた1,367個のメカニカルドローイングのデータセットをキュレートする。
YOLOv11-OBBはこのデータセットでトレーニングされ、OBBを検出し、アノテーションパッチを抽出する。
これらは2つのオープンソースVLM(DonutとFlorence-2)を使って解析される。
どちらのモデルも軽量で、計算オーバーヘッドが限られている特殊な産業用途に適している。
構造化されたアノテーションラベルと組み合わせた画像パッチのキュレートされたデータセット上で、両方のモデルを微調整した後、4つの主要な指標のパーシング性能を評価するために比較実験を行った。
ドーナツは、88.5%の精度、99.2%のリコール、93.5%のF1スコア、幻覚率11.5%でフィレンツェ-2を上回っている。
最後に, 抽出した構造化情報は, プロセスやツールの選択などの下流製造作業をどのように支援し, 2次元描画の解釈を近代化する上で, 提案フレームワークの実用性を示す。
関連論文リスト
- Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer [0.0]
本稿では,構造化情報抽出のためのハイブリッドディープラーニングフレームワークを提案する。
オブジェクト指向境界ボックス(OBB)モデルと変換器ベースの文書解析モデル(Donut)を統合する。
提案するフレームワークは、精度を改善し、手作業の労力を削減するとともに、精度駆動型産業におけるスケーラブルなデプロイメントをサポートする。
論文 参考訳(メタデータ) (2025-05-02T18:33:21Z) - Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction [0.0]
Florence-2はオープンソースの視覚自動モデル(VLM)である
ドメインの専門家が提供した、根拠となる真実のアノテーションを備えた400の図面のデータセットでトレーニングされている。
29.95%の精度向上、37.75%のリコール、52.40%のF1スコアの改善、43.15%の幻覚率の低下を実現している。
論文 参考訳(メタデータ) (2024-11-06T07:11:15Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Extracting and Encoding: Leveraging Large Language Models and Medical Knowledge to Enhance Radiological Text Representation [31.370503681645804]
自由テキストラジオグラフィーレポートから高品質な事実文を抽出するための新しい2段階フレームワークを提案する。
我々のフレームワークには胸部X線テキスト生成システムを評価するための新しい埋め込みベースのメトリクス(CXRFE)も含まれている。
論文 参考訳(メタデータ) (2024-07-02T04:39:19Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。