論文の概要: A Lightweight and Accurate Recognition Framework for Signs of X-ray Weld
Images
- arxiv url: http://arxiv.org/abs/2110.09278v1
- Date: Mon, 18 Oct 2021 13:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 19:46:02.907452
- Title: A Lightweight and Accurate Recognition Framework for Signs of X-ray Weld
Images
- Title(参考訳): X線溶接画像の符号に対する軽量かつ高精度な認識フレームワーク
- Authors: Moyun Liu, Jingming Xie, Jing Hao, Yang Zhang, Xuzhan Chen, Youping
Chen
- Abstract要約: 溶接画像に対する畳み込みニューラルネットワーク(CNN)に基づく信号認識フレームワークを提案する。
我々は,分類段階では1.1ギガ浮動小数点演算(GFLOP)で99.7%,認識段階では176.1フレーム/秒(FPS)で平均平均mAP(mAP)を達成した。
- 参考スコア(独自算出の注目度): 3.7763018126203685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: X-ray images are commonly used to ensure the security of devices in quality
inspection industry. The recognition of signs printed on X-ray weld images
plays an essential role in digital traceability system of manufacturing
industry. However, the scales of objects vary different greatly in weld images,
and it hinders us to achieve satisfactory recognition. In this paper, we
propose a signs recognition framework based on convolutional neural networks
(CNNs) for weld images. The proposed framework firstly contains a shallow
classification network for correcting the pose of images. Moreover, we present
a novel spatial and channel enhancement (SCE) module to address the above scale
problem. This module can integrate multi-scale features and adaptively assign
weights for each feature source. Based on SCE module, a narrow network is
designed for final weld information recognition. To enhance the practicability
of our framework, we carefully design the architecture of framework with a few
parameters and computations. Experimental results show that our framework
achieves 99.7% accuracy with 1.1 giga floating-point of operations (GFLOPs) on
classification stage, and 90.0 mean average precision (mAP) with 176.1 frames
per second (FPS) on recognition stage.
- Abstract(参考訳): x線画像は、品質検査業界におけるデバイスのセキュリティを確保するために一般的に使用される。
x線溶接画像に印刷された標識の認識は、製造業界のデジタルトレーサビリティシステムにおいて重要な役割を果たす。
しかし, 溶接画像では物体のスケールが大きく異なり, 良好な認識が得られにくい。
本稿では,溶接画像に対する畳み込みニューラルネットワーク(CNN)に基づく信号認識フレームワークを提案する。
提案するフレームワークは,まず画像のポーズを補正する浅い分類網を含む。
さらに,上記の課題に対処するために,新たな空間・チャネル拡張(sce)モジュールを提案する。
このモジュールはマルチスケールの機能を統合し、各機能ソースの重みを適応的に割り当てる。
SCEモジュールをベースとした狭帯域ネットワークは最終溶接情報認識のために設計されている。
フレームワークの実用性を高めるため、いくつかのパラメータと計算でフレームワークのアーキテクチャを慎重に設計します。
実験の結果,本フレームワークは分類段階では1.1ギガ浮動小数点演算(GFLOP)で99.7%,認識段階では90.0平均平均平均精度(mAP)が176.1フレーム/秒(FPS)で達成された。
関連論文リスト
- PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - UWB Based Static Gesture Classification [0.0]
UWBに基づく静的ジェスチャー認識のためのロバストなフレームワークを提案する。
我々の最高の性能モデルは96.78%の精度を達成した。
本研究は,UWB技術を用いた静的ジェスチャー認識の高度化に向けた重要な一歩である。
論文 参考訳(メタデータ) (2023-10-23T15:34:03Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - Multi-Content Complementation Network for Salient Object Detection in
Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。
本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。
MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文 参考訳(メタデータ) (2021-12-02T04:46:40Z) - Attend and Guide (AG-Net): A Keypoints-driven Attention-based Deep
Network for Image Recognition [13.230646408771868]
本稿では,新しいアテンション機構を用いて,きめ細かい変化をリンクする意味のある特徴を学習するエンド・ツー・エンドCNNモデルを提案する。
意味領域(SR)とその空間分布を識別することで画像内の空間構造をキャプチャし、画像の微妙な変化をモデル化する鍵であることが証明された。
このフレームワークは6つの多様なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2021-10-23T09:43:36Z) - DSNet: A Dual-Stream Framework for Weakly-Supervised Gigapixel Pathology
Image Analysis [78.78181964748144]
スライド画像全体(WSI)を分類するための弱教師付きフレームワークを提案する。
WSIは通常、パッチレベルのラベルを持つパッチワイド分類によって処理される。
イメージレベルのラベルのみの場合、パッチの外観とイメージレベルのラベルの矛盾のため、パッチの分類はサブ最適となる。
論文 参考訳(メタデータ) (2021-09-13T09:10:43Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。