論文の概要: Efficient Pretraining Model based on Multi-Scale Local Visual Field Feature Reconstruction for PCB CT Image Element Segmentation
- arxiv url: http://arxiv.org/abs/2405.05745v1
- Date: Thu, 9 May 2024 13:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:23:01.116780
- Title: Efficient Pretraining Model based on Multi-Scale Local Visual Field Feature Reconstruction for PCB CT Image Element Segmentation
- Title(参考訳): PCBCT画像要素分割のためのマルチスケール局所視野特徴再構成に基づく効率的な事前学習モデル
- Authors: Chen Chen, Kai Qiao, Jie Yang, Jian Chen, Bin Yan,
- Abstract要約: 要素セグメンテーションは、CT技術に基づくプリント回路基板(PCB)の非破壊試験における重要なステップである。
近年、自己監督型事前学習技術の急速な発展により、ラベル付きサンプルを使わずに一般的な画像特徴を得られるようになり、少量のラベル付きサンプルを用いて下流タスクを解決し、PCB要素セグメンテーションの可能性を秘めている。
バイブ、ワイヤ、パッドなどのPCB素子の小型かつ規則的なサイズのため、グローバル視野は単一要素再構成の冗長性を持ち、モデルの性能を損なう可能性がある。
効率的な事前学習モデルを提案する。
- 参考スコア(独自算出の注目度): 13.10815702982814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Element segmentation is a key step in nondestructive testing of Printed Circuit Boards (PCB) based on Computed Tomography (CT) technology. In recent years, the rapid development of self-supervised pretraining technology can obtain general image features without labeled samples, and then use a small amount of labeled samples to solve downstream tasks, which has a good potential in PCB element segmentation. At present, Masked Image Modeling (MIM) pretraining model has been initially applied in PCB CT image element segmentation. However, due to the small and regular size of PCB elements such as vias, wires, and pads, the global visual field has redundancy for a single element reconstruction, which may damage the performance of the model. Based on this issue, we propose an efficient pretraining model based on multi-scale local visual field feature reconstruction for PCB CT image element segmentation (EMLR-seg). In this model, the teacher-guided MIM pretraining model is introduced into PCB CT image element segmentation for the first time, and a multi-scale local visual field extraction (MVE) module is proposed to reduce redundancy by focusing on local visual fields. At the same time, a simple 4-Transformer-blocks decoder is used. Experiments show that EMLR-seg can achieve 88.6% mIoU on the PCB CT image dataset we proposed, which exceeds 1.2% by the baseline model, and the training time is reduced by 29.6 hours, a reduction of 17.4% under the same experimental condition, which reflects the advantage of EMLR-seg in terms of performance and efficiency.
- Abstract(参考訳): 要素セグメンテーションは、CT技術に基づくプリント回路基板(PCB)の非破壊試験における重要なステップである。
近年、自己監督型事前学習技術の急速な発展により、ラベル付きサンプルを使わずに一般的な画像特徴を得られるようになり、少量のラベル付きサンプルを用いて下流タスクを解決し、PCB要素セグメンテーションの可能性を秘めている。
現在, Masked Image Modeling (MIM) プレトレーニングモデルが PCB CT 画像要素のセグメンテーションに採用されている。
しかし,配線やパッドなどのPCB素子の小型かつ規則的なサイズのため,大域的視野は単一要素再構成の冗長性を有し,モデルの性能を損なう可能性がある。
そこで本研究では,PCBCT画像要素分割(EMLR-seg)のためのマルチスケール局所視野特徴再構成に基づく,効率的な事前学習モデルを提案する。
本モデルでは,教師誘導MIM事前学習モデルをPCB CT画像要素分割に導入し,局所視野に着目して冗長性を低減するため,マルチスケール局所視野抽出(MVE)モジュールを提案する。
同時に、単純な4-Transformer-blocksデコーダが使用される。
実験の結果,提案したPCBCT画像データセットでは,EMLRセグが88.6%のmIoUを達成でき,トレーニング時間は29.6時間短縮され,同じ条件下で17.4%削減された。
関連論文リスト
- CoCPF: Coordinate-based Continuous Projection Field for Ill-Posed Inverse Problem in Imaging [78.734927709231]
スパース・ビュー・コンピュート・トモグラフィー(SVCT)の再構成は,スパース・サンプリングによるCT画像の取得を目的としている。
暗黙的な神経表現(INR)技術は、不備のため、その分野に「かなりの穴」(すなわち、未モデル化空間)を残し、準最適結果をもたらす可能性がある。
SVCT再構成のためのホールフリー表現場を構築することを目的としたコーディネート型連続射影場(CoCPF)を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:38:30Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Interpretable Small Training Set Image Segmentation Network Originated
from Multi-Grid Variational Model [5.283735137946097]
深層学習法 (DL) が提案され, 画像分割に広く利用されている。
DLメソッドは通常、トレーニングデータとして大量の手動セグメントデータを必要とし、解釈性に乏しい。
本稿では,MSモデルにおける手作り正則項をデータ適応型一般化可学習正則項に置き換える。
論文 参考訳(メタデータ) (2023-06-25T02:34:34Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Deep Learning for Material Decomposition in Photon-Counting CT [0.5801044612920815]
そこで本研究では,PCCTにおける材料分解のための新たな深層学習ソリューションを提案する。
提案手法は,最大推定値,変分法,および完全学習ネットワークよりも優れる。
論文 参考訳(メタデータ) (2022-08-05T19:05:16Z) - Stable Optimization for Large Vision Model Based Deep Image Prior in
Cone-Beam CT Reconstruction [6.558735319783205]
LVM(Large Vision Model)は、最近医療画像のタスクにおいて大きな可能性を実証した。
Deep Image Prior(DIP)は、トレーニングされていないニューラルネットワークを効果的にガイドし、トレーニングデータなしで高品質のCBCT画像を生成する。
スパースビューCBCTのためのフォワードモデルフリーDIPモデルの安定最適化法を提案する。
論文 参考訳(メタデータ) (2022-03-23T15:16:29Z) - An Active Contour Model with Local Variance Force Term and Its Efficient
Minimization Solver for Multi-phase Image Segmentation [2.935661780430872]
多相画像分割問題に適用可能な局所分散力(LVF)項を持つ能動輪郭モデルを提案する。
LVFでは,ノイズのある画像のセグメンテーションに非常に効果的である。
論文 参考訳(メタデータ) (2022-03-17T02:32:30Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Tackling the Problem of Limited Data and Annotations in Semantic
Segmentation [1.0152838128195467]
画像セグメンテーションにおける限られたデータアノテーションの問題に対処するために、異なる事前訓練されたモデルとCRFベースの手法を適用した。
この目的のために、RotNet、DeeperCluster、Semi&Weakly Supervised Learning (SWSL)が事前訓練されたモデルをDeepLab-v2ベースラインで転送、微調整する。
その結果、この小さなデータセットでは、事前トレーニングされたResNet50 SWSLモデルを使用することで、ImageNet事前トレーニングされたモデルよりも7.4%良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-14T21:11:11Z) - Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection [86.0580214485104]
本稿では,オブジェクト検出のための汎用的で効率的な事前学習パラダイムであるMontage事前学習を提案する。
Montage事前トレーニングは、ターゲット検出データセットのみを必要とするが、広く採用されているImageNet事前トレーニングと比較して、計算リソースは1/4しかない。
モンタージュ事前学習の効率と有効性は、MS-COCOデータセットの広範な実験によって検証される。
論文 参考訳(メタデータ) (2020-04-25T16:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。