論文の概要: A Lightweight and Accurate Recognition Framework for Signs of X-ray Weld
Images
- arxiv url: http://arxiv.org/abs/2110.09278v1
- Date: Mon, 18 Oct 2021 13:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 19:46:02.907452
- Title: A Lightweight and Accurate Recognition Framework for Signs of X-ray Weld
Images
- Title(参考訳): X線溶接画像の符号に対する軽量かつ高精度な認識フレームワーク
- Authors: Moyun Liu, Jingming Xie, Jing Hao, Yang Zhang, Xuzhan Chen, Youping
Chen
- Abstract要約: 溶接画像に対する畳み込みニューラルネットワーク(CNN)に基づく信号認識フレームワークを提案する。
我々は,分類段階では1.1ギガ浮動小数点演算(GFLOP)で99.7%,認識段階では176.1フレーム/秒(FPS)で平均平均mAP(mAP)を達成した。
- 参考スコア(独自算出の注目度): 3.7763018126203685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: X-ray images are commonly used to ensure the security of devices in quality
inspection industry. The recognition of signs printed on X-ray weld images
plays an essential role in digital traceability system of manufacturing
industry. However, the scales of objects vary different greatly in weld images,
and it hinders us to achieve satisfactory recognition. In this paper, we
propose a signs recognition framework based on convolutional neural networks
(CNNs) for weld images. The proposed framework firstly contains a shallow
classification network for correcting the pose of images. Moreover, we present
a novel spatial and channel enhancement (SCE) module to address the above scale
problem. This module can integrate multi-scale features and adaptively assign
weights for each feature source. Based on SCE module, a narrow network is
designed for final weld information recognition. To enhance the practicability
of our framework, we carefully design the architecture of framework with a few
parameters and computations. Experimental results show that our framework
achieves 99.7% accuracy with 1.1 giga floating-point of operations (GFLOPs) on
classification stage, and 90.0 mean average precision (mAP) with 176.1 frames
per second (FPS) on recognition stage.
- Abstract(参考訳): x線画像は、品質検査業界におけるデバイスのセキュリティを確保するために一般的に使用される。
x線溶接画像に印刷された標識の認識は、製造業界のデジタルトレーサビリティシステムにおいて重要な役割を果たす。
しかし, 溶接画像では物体のスケールが大きく異なり, 良好な認識が得られにくい。
本稿では,溶接画像に対する畳み込みニューラルネットワーク(CNN)に基づく信号認識フレームワークを提案する。
提案するフレームワークは,まず画像のポーズを補正する浅い分類網を含む。
さらに,上記の課題に対処するために,新たな空間・チャネル拡張(sce)モジュールを提案する。
このモジュールはマルチスケールの機能を統合し、各機能ソースの重みを適応的に割り当てる。
SCEモジュールをベースとした狭帯域ネットワークは最終溶接情報認識のために設計されている。
フレームワークの実用性を高めるため、いくつかのパラメータと計算でフレームワークのアーキテクチャを慎重に設計します。
実験の結果,本フレームワークは分類段階では1.1ギガ浮動小数点演算(GFLOP)で99.7%,認識段階では90.0平均平均平均精度(mAP)が176.1フレーム/秒(FPS)で達成された。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Image-free multi-character recognition [0.0]
本稿では,マルチターゲット認識に挑戦する新たなイメージフリーセンシング技術について報告する。
報告されたCRNNネットワークユーティリティは、複数の文字の分布を同時に予測するために双方向LSTMアーキテクチャを利用する。
本手法の有効性を実証し, 87.60%の認識精度を5%サンプリングレートで達成し, 100 FPSリフレッシュレートを高くした。
論文 参考訳(メタデータ) (2021-12-20T15:06:49Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Multi-Content Complementation Network for Salient Object Detection in
Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。
本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。
MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文 参考訳(メタデータ) (2021-12-02T04:46:40Z) - Attend and Guide (AG-Net): A Keypoints-driven Attention-based Deep
Network for Image Recognition [13.230646408771868]
本稿では,新しいアテンション機構を用いて,きめ細かい変化をリンクする意味のある特徴を学習するエンド・ツー・エンドCNNモデルを提案する。
意味領域(SR)とその空間分布を識別することで画像内の空間構造をキャプチャし、画像の微妙な変化をモデル化する鍵であることが証明された。
このフレームワークは6つの多様なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2021-10-23T09:43:36Z) - DSNet: A Dual-Stream Framework for Weakly-Supervised Gigapixel Pathology
Image Analysis [78.78181964748144]
スライド画像全体(WSI)を分類するための弱教師付きフレームワークを提案する。
WSIは通常、パッチレベルのラベルを持つパッチワイド分類によって処理される。
イメージレベルのラベルのみの場合、パッチの外観とイメージレベルのラベルの矛盾のため、パッチの分類はサブ最適となる。
論文 参考訳(メタデータ) (2021-09-13T09:10:43Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。