論文の概要: Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
- arxiv url: http://arxiv.org/abs/2510.11091v1
- Date: Mon, 13 Oct 2025 07:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.245229
- Title: Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
- Title(参考訳): CAD描画におけるテキスト強調パノプティカルシンボルスポッティング
- Authors: Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu,
- Abstract要約: CAD自動化や設計検索といった下流アプリケーションを実現する上で、パノプティカルシンボルスポッティングは重要な役割を担っている。
既存の手法は主にCAD図面内の幾何学的プリミティブに焦点を当てている。
テキストアノテーションを組み込んだパノプティカルシンボルスポッティングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.367938077469008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
- Abstract(参考訳): 工学、建築、工業デザインにおけるCAD図面の普及に伴い、これらの図面を正確に解釈し分析する能力はますます重要になっている。
様々なサブタスクの中で、CAD自動化やデザイン検索といった下流アプリケーションを実現する上で、パノプティカルシンボルスポッティングは重要な役割を担っている。
既存の手法は主にCAD図面内の幾何学的プリミティブに焦点を当てているが、これらはCAD図面に存在するリッチテキストのアノテーションを見落とし、プリミティブ間の関係の明確なモデリングを欠いているため、全体的な図面の理解が困難である。
このギャップを埋めるために,テキストアノテーションを組み込んだ汎視的シンボルスポッティングフレームワークを提案する。
このフレームワークは、幾何学的およびテキスト的プリミティブを共同でモデル化することで統一表現を構築する。
次に、事前訓練されたCNNによる視覚的特徴抽出を初期表現として、Transformerベースのバックボーンを使用し、様々なプリミティブ間の異なるタイプの空間的依存関係を明示的にモデル化するために、タイプアウェアアテンション機構で拡張する。
実世界のデータセットに対する大規模な実験により、提案手法はテキストアノテーションを含むシンボルスポッティングタスクにおいて既存の手法よりも優れており、複雑なCAD描画に適用した場合に優れたロバスト性を示すことが示された。
関連論文リスト
- Large Language Model Agent for Structural Drawing Generation Using ReAct Prompt Engineering and Retrieval Augmented Generation [3.326690511274941]
土木工学では、建築図面は建築家、技術者、建築者の間の主要なコミュニケーションツールとして機能する。
ソフトウェア能力の進歩にもかかわらず、構造図を作成するタスクは、労働集約的で時間を要するままである。
本稿では,大規模言語モデル(LLM)エージェントを用いた構造図を生成するための,新しい生成AIベースの手法を提案する。
論文 参考訳(メタデータ) (2025-07-26T03:47:12Z) - Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings [45.116136045440584]
ベクトルグラフィカルプリミティブからなるCAD図面におけるパノプティカルシンボルスポッティングの課題について検討する。
既存の手法は通常、画像化、グラフ構築、あるいは点ベースの表現に依存している。
本稿では,プリミティブの行ベースの表現を通じてこれらの課題に対処する新しい手法であるVecFormerを提案する。
論文 参考訳(メタデータ) (2025-05-29T12:33:11Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - CADSpotting: Robust Panoptic Symbol Spotting on Large-Scale CAD Drawings [56.05238657033198]
本稿では,大規模CAD図面におけるパノプティカルシンボルスポッティングの効果的な方法であるCADSpottingを紹介する。
また、重み付き投票とNon-Maximum Suppression(NMS)を組み合わせたSWA(Sliding Window Aggregation)手法を提案する。
FloorPlanCAD と LS-CAD の実験により,CADSpotting が既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-10T10:22:17Z) - Biphasic Face Photo-Sketch Synthesis via Semantic-Driven Generative
Adversarial Network with Graph Representation Learning [40.544844623958426]
本稿では,これらの問題に対処するためのセマンティック・ドリブン・ジェネレーティブ・アドバイザリ・ネットワークを提案する。
人間の顔が異なる空間構造を持つことを考慮し、まず、生成元にクラスワイドなセマンティックレイアウトを注入する。
IntrA-class Semantic Graph (IASG) とInteR-class Structure Graph (IRSG) という2種類の表現グラフを構築した。
論文 参考訳(メタデータ) (2022-01-05T13:14:14Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。