論文の概要: Symbol as Points: Panoptic Symbol Spotting via Point-based
Representation
- arxiv url: http://arxiv.org/abs/2401.10556v1
- Date: Fri, 19 Jan 2024 08:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:33:14.780056
- Title: Symbol as Points: Panoptic Symbol Spotting via Point-based
Representation
- Title(参考訳): ポイントとしてのシンボル:ポイントベース表現によるパノプティカルシンボルスポッティング
- Authors: Wenlong Liu, Tianyu Yang, Yuhan Wang, Qizhi Yu, Lei Zhang
- Abstract要約: 本研究は,コンピュータ支援設計(CAD)図面におけるパノプティカルシンボルスポッティングの問題について考察する。
我々は、グラフィックプリミティブを局所的に連結された2D点の集合として扱う別のアプローチをとる。
具体的には、点変換器を用いて原始的な特徴を抽出し、マスク2フォルマーのようなスポッティングヘッドを付加して最終的な出力を予測する。
- 参考スコア(独自算出の注目度): 18.61469313164712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the problem of panoptic symbol spotting, which is to spot
and parse both countable object instances (windows, doors, tables, etc.) and
uncountable stuff (wall, railing, etc.) from computer-aided design (CAD)
drawings. Existing methods typically involve either rasterizing the vector
graphics into images and using image-based methods for symbol spotting, or
directly building graphs and using graph neural networks for symbol
recognition. In this paper, we take a different approach, which treats graphic
primitives as a set of 2D points that are locally connected and use point cloud
segmentation methods to tackle it. Specifically, we utilize a point transformer
to extract the primitive features and append a mask2former-like spotting head
to predict the final output. To better use the local connection information of
primitives and enhance their discriminability, we further propose the attention
with connection module (ACM) and contrastive connection learning scheme (CCL).
Finally, we propose a KNN interpolation mechanism for the mask attention module
of the spotting head to better handle primitive mask downsampling, which is
primitive-level in contrast to pixel-level for the image. Our approach, named
SymPoint, is simple yet effective, outperforming recent state-of-the-art method
GAT-CADNet by an absolute increase of 9.6% PQ and 10.4% RQ on the FloorPlanCAD
dataset. The source code and models will be available at
https://github.com/nicehuster/SymPoint.
- Abstract(参考訳): 本研究は,コンピュータ支援設計(CAD)図面から,可算オブジェクトインスタンス(ウィンドウ,ドア,テーブルなど)と非可算オブジェクト(壁,手すりなど)を識別・解析する,汎視的シンボルスポッティングの問題を研究する。
既存の手法では、ベクターグラフィックスを画像にラスタ化したり、画像に基づくシンボルスポッティングを使ったり、グラフを直接構築したり、グラフニューラルネットワークをシンボル認識に用いたりするのが一般的である。
本稿では,グラフィックプリミティブを,ローカルに接続された2dポイントの集合として扱い,それに取り組むためにポイントクラウドセグメンテーション手法を用いるという,異なるアプローチを採用する。
具体的には、点変換器を用いて原始的な特徴を抽出し、マスク2フォルマーのようなスポッティングヘッドを付加して最終的な出力を予測する。
プリミティブの局所接続情報をよりよく利用し、識別可能性を高めるために、接続モジュール(ACM)とコントラスト接続学習スキーム(CCL)による注目をさらに高める。
最後に,スポッティングヘッドのマスクアテンションモジュールに対するkn補間機構を提案する。画像の画素レベルとは対照的に,プリミティブなマスクダウンサンプリングをよりうまく処理する。
われわれのアプローチはSymPointと呼ばれ、FloorPlanCADデータセット上で9.6%のPQと10.4%のRQを絶対的に増加させ、最新の最先端のGAT-CADNetよりも優れている。
ソースコードとモデルはhttps://github.com/nicehuster/sympointで入手できる。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Pixel-Wise Symbol Spotting via Progressive Points Location for Parsing CAD Images [1.5736099356327244]
本稿では,CAD図面から変換されたCAD画像からシンボルをラベル付けし,配置する。
CAD画像からシンボルをスポッティングする利点は、ラベル付けの低要件と低コストのアノテーションにある。
キーポイント検出に基づいて,CAD画像中の矩形記号を再描画するシンボルグループ化手法を提案する。
論文 参考訳(メタデータ) (2024-04-17T01:35:52Z) - Surface Reconstruction from Point Clouds via Grid-based Intersection Prediction [12.329450385760051]
本稿では,点対の線分と暗黙曲面との交点を直接予測する手法を提案する。
提案手法は,ShapeNet,MGN,ScanNetの3つのデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-03-21T02:31:17Z) - Efficient Encoding of Graphics Primitives with Simplex-based Structures [0.8158530638728501]
本稿では,グラフィックプリミティブを符号化するシンプルな手法を提案する。
提案手法は, 2次元画像整合作業において, ベースライン法に比べて9.4%少ない時間で画像の整合を行うことができる。
論文 参考訳(メタデータ) (2023-11-26T21:53:22Z) - What Can Human Sketches Do for Object Detection? [127.67444974452411]
スケッチは非常に表現力が高く、本質的に主観的かつきめ細かい視覚的手がかりを捉えている。
スケッチ可能なオブジェクト検出フレームワークは、 textityou sketch -- textit that zebra' に基づいて検出する。
スケッチベース画像検索(SBIR)のために構築された基礎モデル(例えばCLIP)と既存のスケッチモデルとの直感的な相乗効果を示す。
特に、まず、エンコーダモデルの両方のスケッチブランチで独立に実行し、高度に一般化可能なスケッチとフォトエンコーダを構築する。
論文 参考訳(メタデータ) (2023-03-27T12:33:23Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - GAT-CADNet: Graph Attention Network for Panoptic Symbol Spotting in CAD
Drawings [0.0]
コンピュータ支援設計(CAD)図面からグラフィカルシンボルを抽出することは、多くの産業アプリケーションにとって不可欠である。
本稿では,各CAD描画をグラフとして扱うことにより,新しいグラフ注意ネットワークGAT-CADNetを提案する。
提案したGAT-CADNetは直感的だが有効であり, 一つの統合ネットワークにおける汎視的シンボルスポッティング問題の解決に成功している。
論文 参考訳(メタデータ) (2022-01-03T13:08:28Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - LCD -- Line Clustering and Description for Place Recognition [29.053923938306323]
本稿では,RGB-Dカメラとラインクラスタを視覚的および幾何学的特徴として利用し,位置認識のための新しい学習ベースのアプローチを提案する。
本稿では,フレームワイド線クラスタリングのアテンション機構に基づくニューラルネットワークアーキテクチャを提案する。
同様のニューラルネットワークは、128個の浮動小数点数のコンパクトな埋め込みによるこれらのクラスタの記述に使用される。
論文 参考訳(メタデータ) (2020-10-21T09:52:47Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。