論文の概要: A Comprehensive End-to-End Computer Vision Framework for Restoration and
Recognition of Low-Quality Engineering Drawings
- arxiv url: http://arxiv.org/abs/2312.13620v1
- Date: Thu, 21 Dec 2023 07:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:38:54.150128
- Title: A Comprehensive End-to-End Computer Vision Framework for Restoration and
Recognition of Low-Quality Engineering Drawings
- Title(参考訳): 低品質工学図の復元と認識のための総合的エンド・ツー・エンドコンピュータビジョンフレームワーク
- Authors: Lvyang Yang, Jiankang Zhang, Huaiqiang Li, Longfei Ren, Chen Yang,
Jingyu Wang, Dongyuan Shi
- Abstract要約: 本稿では,低品質なエンジニアリング図面の復元と認識に焦点を当てる。
図面の品質を向上し,図面上の図形記号を識別するために,エンドツーエンドのフレームワークを提案する。
実世界の電気図の実験では、提案されたフレームワークは98.98%の精度と99.33%のリコールを達成した。
- 参考スコア(独自算出の注目度): 19.375278164300987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digitization of engineering drawings is crucial for efficient reuse,
distribution, and archiving. Existing computer vision approaches for digitizing
engineering drawings typically assume the input drawings have high quality.
However, in reality, engineering drawings are often blurred and distorted due
to improper scanning, storage, and transmission, which may jeopardize the
effectiveness of existing approaches. This paper focuses on restoring and
recognizing low-quality engineering drawings, where an end-to-end framework is
proposed to improve the quality of the drawings and identify the graphical
symbols on them. The framework uses K-means clustering to classify different
engineering drawing patches into simple and complex texture patches based on
their gray level co-occurrence matrix statistics. Computer vision operations
and a modified Enhanced Super-Resolution Generative Adversarial Network
(ESRGAN) model are then used to improve the quality of the two types of
patches, respectively. A modified Faster Region-based Convolutional Neural
Network (Faster R-CNN) model is used to recognize the quality-enhanced
graphical symbols. Additionally, a multi-stage task-driven collaborative
learning strategy is proposed to train the modified ESRGAN and Faster R-CNN
models to improve the resolution of engineering drawings in the direction that
facilitates graphical symbol recognition, rather than human visual perception.
A synthetic data generation method is also proposed to construct
quality-degraded samples for training the framework. Experiments on real-world
electrical diagrams show that the proposed framework achieves an accuracy of
98.98% and a recall of 99.33%, demonstrating its superiority over previous
approaches. Moreover, the framework is integrated into a widely-used power
system software application to showcase its practicality.
- Abstract(参考訳): エンジニアリング図面のデジタル化は、効率的な再利用、流通、アーカイブに不可欠である。
工学図面をデジタル化する既存のコンピュータビジョンアプローチは、通常、入力図面が高品質であると仮定する。
しかし、実際には、エンジニアリング図面は不適切なスキャン、ストレージ、送信のためにしばしばぼやけ、歪められ、既存のアプローチの有効性を損なう可能性がある。
本稿では,低品質な図面の復元と認識に焦点をあて,図面の品質向上と図形記号の識別を目的としたエンドツーエンドフレームワークを提案する。
このフレームワークはK平均クラスタリングを使用して、グレーレベルの共起行列統計に基づいて、異なるエンジニアリング描画パッチを単純で複雑なテクスチャパッチに分類する。
コンピュータビジョン操作と改良された超解像生成適応ネットワーク(ESRGAN)モデルは、それぞれ2種類のパッチの品質を改善するために使用される。
改良された高速領域ベース畳み込みニューラルネットワーク(Faster R-CNN)モデルは、品質向上したグラフィックシンボルを認識するために使用される。
さらに,多段階のタスク駆動型協調学習戦略を提案し,人間の視覚認識ではなく,図形認識を促進する方向のエンジニアリング図面の解像度を改善するために,修正ESRGANとFaster R-CNNモデルを訓練した。
フレームワークをトレーニングするための品質劣化サンプルを構築するための合成データ生成手法も提案されている。
実世界の電気ダイアグラムの実験では、提案されたフレームワークは98.98%の精度と99.33%のリコールを達成し、以前のアプローチよりも優れていることを示した。
さらに、このフレームワークは広く使われている電力システムソフトウェアアプリケーションに統合され、実用性を示す。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - $R^2$-Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement [5.810659946867557]
Neural Radiance Fields (NeRF)に基づくメッシュ再構成は、コンピュータグラフィックス、仮想現実、医療画像などの様々なアプリケーションで人気がある。
マルチビュー画像からメッシュを段階的に生成し,最適化する新しいアルゴリズムを提案する。
本手法は,メッシュレンダリングの品質と幾何学的品質の両方において,高い競争力とロバストな性能を提供する。
論文 参考訳(メタデータ) (2024-08-19T16:33:17Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - HAT-GAE: Self-Supervised Graph Auto-encoders with Hierarchical Adaptive
Masking and Trainable Corruption [0.76146285961466]
グラフ表現学習のための新しいオートエンコーダモデルを提案する。
このモデルには階層型適応マスキング機構が組み込まれ,トレーニングの難易度を漸進的に向上させる。
提案手法が最先端のグラフ表現学習モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-28T02:43:54Z) - Cyclegan Network for Sheet Metal Welding Drawing Translation [0.0]
本稿では,CycleGAN(CycleGAN)に基づく溶接構造工学図面の自動翻訳手法を提案する。
実溶接工学図面の特徴マッピングを学習するために, 無人転写学習のCycleGANネットワークモデルを用いる。
我々のモデルでトレーニングした後、溶接工学図面のPSNR、SSIM、MSEはそれぞれ44.89%、99.58%、そして2.11に達する。
論文 参考訳(メタデータ) (2022-09-28T13:55:36Z) - A Proper Orthogonal Decomposition approach for parameters reduction of
Single Shot Detector networks [0.0]
本稿では,古典的モデルオーダー削減手法であるProper Orthogonal Decompositionに基づく次元削減フレームワークを提案する。
我々は、PASCAL VOCデータセットを用いてSSD300アーキテクチャにそのようなフレームワークを適用し、ネットワーク次元の削減と、転送学習コンテキストにおけるネットワークの微調整における顕著な高速化を実証した。
論文 参考訳(メタデータ) (2022-07-27T14:43:14Z) - Cognitive Visual Inspection Service for LCD Manufacturing Industry [80.63336968475889]
本論文では,現在FPD業界で主流となっている液晶ディスプレイ(LCD)の視覚検査システムについて述べる。
システムは、堅牢/高性能欠陥認識モデルと認知視覚検査サービスアーキテクチャの2つの基礎に基づいています。
論文 参考訳(メタデータ) (2021-01-11T08:14:35Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。