論文の概要: A Multi-Stage Hybrid Framework for Automated Interpretation of Multi-View Engineering Drawings Using Vision Language Model
- arxiv url: http://arxiv.org/abs/2510.21862v1
- Date: Thu, 23 Oct 2025 09:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.624018
- Title: A Multi-Stage Hybrid Framework for Automated Interpretation of Multi-View Engineering Drawings Using Vision Language Model
- Title(参考訳): 視覚言語モデルを用いた多視点図面自動解釈のための多段階ハイブリッドフレームワーク
- Authors: Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Wenhe Feng, Nicholas Yew Jin Tan, Seung Ki Moon,
- Abstract要約: 本稿では,2次元多視点エンジニアリング図面の自動解釈のための3段階ハイブリッドフレームワークを提案する。
YOLOv11-detは、ビュー、タイトルブロック、ノートなどのキー領域をローカライズするレイアウトセグメンテーションを実行する。
第2ステージでは、CAD対応のYOLOv11-obbを使用して、測定値、GD&Tシンボル、表面粗さインジケータなど、アノテーションのきめ細かい検出を行う。
第3ステージでは、セマンティックコンテンツ解析に2つのDonutベースのOCRフリーVLMを使用している。
- 参考スコア(独自算出の注目度): 0.044780965967547055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engineering drawings are fundamental to manufacturing communication, serving as the primary medium for conveying design intent, tolerances, and production details. However, interpreting complex multi-view drawings with dense annotations remains challenging using manual methods, generic optical character recognition (OCR) systems, or traditional deep learning approaches, due to varied layouts, orientations, and mixed symbolic-textual content. To address these challenges, this paper proposes a three-stage hybrid framework for the automated interpretation of 2D multi-view engineering drawings using modern detection and vision language models (VLMs). In the first stage, YOLOv11-det performs layout segmentation to localize key regions such as views, title blocks, and notes. The second stage uses YOLOv11-obb for orientation-aware, fine-grained detection of annotations, including measures, GD&T symbols, and surface roughness indicators. The third stage employs two Donut-based, OCR-free VLMs for semantic content parsing: the Alphabetical VLM extracts textual and categorical information from title blocks and notes, while the Numerical VLM interprets quantitative data such as measures, GD&T frames, and surface roughness. Two specialized datasets were developed to ensure robustness and generalization: 1,000 drawings for layout detection and 1,406 for annotation-level training. The Alphabetical VLM achieved an overall F1 score of 0.672, while the Numerical VLM reached 0.963, demonstrating strong performance in textual and quantitative interpretation, respectively. The unified JSON output enables seamless integration with CAD and manufacturing databases, providing a scalable solution for intelligent engineering drawing analysis.
- Abstract(参考訳): エンジニアリング図面は、設計意図、耐久性、製造詳細を伝えるための主要な媒体として機能する、製造コミュニケーションの基本である。
しかし、複雑な多視点図面を高密度アノテーションで解釈することは、様々なレイアウト、向き、混在する記号・テクスチュアコンテンツのために、手動手法、汎用光学文字認識(OCR)システム、あるいは従来のディープラーニングアプローチを用いて難しいままである。
これらの課題に対処するために,現代の検出・視覚言語モデル(VLM)を用いた2次元多視点エンジニアリング図面の自動解釈のための3段階ハイブリッドフレームワークを提案する。
最初の段階では、YOLOv11-detはビュー、タイトルブロック、ノートなどのキー領域をローカライズするレイアウトセグメンテーションを実行する。
第2ステージでは、YOLOv11-obbを使用して、向きを認識し、測定値、GD&Tシンボル、表面粗さインジケータを含むアノテーションのきめ細かい検出を行う。
Alphabetical VLMはタイトルブロックとノートからテキストと分類情報を抽出し、数値VLMは測度、GD&Tフレーム、表面粗さなどの定量的データを解釈する。
レイアウト検出のための1000の描画と、アノテーションレベルのトレーニングのための1,406の2つの特別なデータセットが、堅牢性と一般化を保証するために開発された。
アルファベットVLMは0.672点、数値VLMは0.963点に達した。
統一されたJSON出力はCADや製造データベースとのシームレスな統合を可能にし、インテリジェントなエンジニアリング図面解析のためのスケーラブルなソリューションを提供する。
関連論文リスト
- Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval [15.126709823382539]
本研究は、人物表現学習のためのコントラスト言語画像事前学習(CLIP)を推進している。
MLLMのコンテキスト内学習機能を活用した耐雑音性データ構築パイプラインを開発した。
我々はGA-DMSフレームワークを導入し、ノイズの多いテキストトークンを適応的にマスキングすることで、クロスモーダルアライメントを改善する。
論文 参考訳(メタデータ) (2025-09-11T03:06:22Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - From Drawings to Decisions: A Hybrid Vision-Language Framework for Parsing 2D Engineering Drawings into Structured Manufacturing Knowledge [0.352650106994433]
2Dエンジニアリング図面からの重要な情報は、デジタル製造の進歩に不可欠である。
手動の抽出は遅く、労働集約的であるが、一般的なOCRモデルは複雑なレイアウト、エンジニアリングシンボル、回転テキストのために失敗することが多い。
回転認識オブジェクト検出モデル(YOLOv11-obb)とトランスフォーマーに基づく視覚言語モデル(VLM)を統合するハイブリッドビジョン言語フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-20T17:10:01Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。