Fugu-MT 論文翻訳(概要): A Lightweight and Accurate Recognition Framework for Signs of X-ray Weld Images

論文の概要: A Lightweight and Accurate Recognition Framework for Signs of X-ray Weld Images

arxiv url: http://arxiv.org/abs/2110.09278v1
Date: Mon, 18 Oct 2021 13:21:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 19:46:02.907452
Title: A Lightweight and Accurate Recognition Framework for Signs of X-ray Weld Images
Title（参考訳）: X線溶接画像の符号に対する軽量かつ高精度な認識フレームワーク
Authors: Moyun Liu, Jingming Xie, Jing Hao, Yang Zhang, Xuzhan Chen, Youping Chen
Abstract要約: 溶接画像に対する畳み込みニューラルネットワーク(CNN)に基づく信号認識フレームワークを提案する。我々は,分類段階では1.1ギガ浮動小数点演算(GFLOP)で99.7%,認識段階では176.1フレーム/秒(FPS)で平均平均mAP(mAP)を達成した。
参考スコア（独自算出の注目度）: 3.7763018126203685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: X-ray images are commonly used to ensure the security of devices in quality inspection industry. The recognition of signs printed on X-ray weld images plays an essential role in digital traceability system of manufacturing industry. However, the scales of objects vary different greatly in weld images, and it hinders us to achieve satisfactory recognition. In this paper, we propose a signs recognition framework based on convolutional neural networks (CNNs) for weld images. The proposed framework firstly contains a shallow classification network for correcting the pose of images. Moreover, we present a novel spatial and channel enhancement (SCE) module to address the above scale problem. This module can integrate multi-scale features and adaptively assign weights for each feature source. Based on SCE module, a narrow network is designed for final weld information recognition. To enhance the practicability of our framework, we carefully design the architecture of framework with a few parameters and computations. Experimental results show that our framework achieves 99.7% accuracy with 1.1 giga floating-point of operations (GFLOPs) on classification stage, and 90.0 mean average precision (mAP) with 176.1 frames per second (FPS) on recognition stage.
Abstract（参考訳）: x線画像は、品質検査業界におけるデバイスのセキュリティを確保するために一般的に使用される。 x線溶接画像に印刷された標識の認識は、製造業界のデジタルトレーサビリティシステムにおいて重要な役割を果たす。しかし, 溶接画像では物体のスケールが大きく異なり, 良好な認識が得られにくい。本稿では,溶接画像に対する畳み込みニューラルネットワーク(CNN)に基づく信号認識フレームワークを提案する。提案するフレームワークは,まず画像のポーズを補正する浅い分類網を含む。さらに,上記の課題に対処するために,新たな空間・チャネル拡張(sce)モジュールを提案する。このモジュールはマルチスケールの機能を統合し、各機能ソースの重みを適応的に割り当てる。 SCEモジュールをベースとした狭帯域ネットワークは最終溶接情報認識のために設計されている。フレームワークの実用性を高めるため、いくつかのパラメータと計算でフレームワークのアーキテクチャを慎重に設計します。実験の結果,本フレームワークは分類段階では1.1ギガ浮動小数点演算(GFLOP)で99.7%,認識段階では90.0平均平均平均精度(mAP)が176.1フレーム/秒(FPS)で達成された。

関連論文リスト

Predictive Quality Assessment for Mobile Secure Graphics [11.174175268295519]
本稿では,下流検証作業におけるフレームの有用性を予測するフレームワークを提案する。本フレームワークは,105台のスマートフォンから32,000枚以上の画像の大規模データセットを用いて,再コンテキスト化FNMRおよびISRRメトリクスを用いて検証した。フリーズされたImageNet-pretrainedネットワーク上の軽量プローブは、完全に微調整されたモデルよりも、目に見えない印刷技術に最適化される。
論文参考訳（メタデータ） (2025-09-24T11:46:15Z)
Dual-Branch Convolutional Framework for Spatial and Frequency-Based Image Forgery Detection [0.017188280334580194]
本稿では,フォージェリー検出のための空間的特徴と周波数的特徴を組み合わせたフォージェリー検出フレームワークを提案する。両枝の特徴は融合され、シームズネットワーク内で比較され、64次元の埋め込みによって分類される。 CASIA 2.0データセットでベンチマークすると,従来の統計手法よりも精度が77.9%向上した。
論文参考訳（メタデータ） (2025-09-05T17:41:57Z)
Edge-Enhanced Vision Transformer Framework for Accurate AI-Generated Image Detection [0.0]
本稿では,視覚変換器(ViT)と新たなエッジベース画像処理モジュールを組み合わせたハイブリッド検出フレームワークを提案する。提案手法は,自動コンテンツ検証とデジタル法医学における実世界の応用に非常に適している。
論文参考訳（メタデータ） (2025-08-25T10:30:56Z)
PIGUIQA: A Physical Imaging Guided Perceptual Framework for Underwater Image Quality Assessment [59.9103803198087]
水中画像品質評価(UIQA)のための物理画像ガイド型知覚フレームワークを提案する。水中放射移動理論を応用して、物理に基づく画像推定を統合して、これらの歪みの定量的な測定値を確立する。提案モデルは,画像品質のスコアを正確に予測し,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-20T03:31:45Z)
UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文参考訳（メタデータ） (2024-09-06T08:02:43Z)
PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文参考訳（メタデータ） (2024-01-01T03:45:07Z)
On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。 IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文参考訳（メタデータ） (2023-09-26T08:32:55Z)
Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文参考訳（メタデータ） (2023-05-11T16:42:24Z)
Joint Learning of Deep Texture and High-Frequency Features for Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文参考訳（メタデータ） (2022-09-07T17:30:40Z)
Image-free multi-character recognition [0.0]
本稿では,マルチターゲット認識に挑戦する新たなイメージフリーセンシング技術について報告する。報告されたCRNNネットワークユーティリティは、複数の文字の分布を同時に予測するために双方向LSTMアーキテクチャを利用する。本手法の有効性を実証し, 87.60%の認識精度を5%サンプリングレートで達成し, 100 FPSリフレッシュレートを高くした。
論文参考訳（メタデータ） (2021-12-20T15:06:49Z)
Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文参考訳（メタデータ） (2021-12-17T14:31:40Z)
Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。 MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文参考訳（メタデータ） (2021-12-02T04:46:40Z)
Attend and Guide (AG-Net): A Keypoints-driven Attention-based Deep Network for Image Recognition [13.230646408771868]
本稿では,新しいアテンション機構を用いて,きめ細かい変化をリンクする意味のある特徴を学習するエンド・ツー・エンドCNNモデルを提案する。意味領域(SR)とその空間分布を識別することで画像内の空間構造をキャプチャし、画像の微妙な変化をモデル化する鍵であることが証明された。このフレームワークは6つの多様なベンチマークデータセットで評価される。
論文参考訳（メタデータ） (2021-10-23T09:43:36Z)
DSNet: A Dual-Stream Framework for Weakly-Supervised Gigapixel Pathology Image Analysis [78.78181964748144]
スライド画像全体(WSI)を分類するための弱教師付きフレームワークを提案する。 WSIは通常、パッチレベルのラベルを持つパッチワイド分類によって処理される。イメージレベルのラベルのみの場合、パッチの外観とイメージレベルのラベルの矛盾のため、パッチの分類はサブ最適となる。
論文参考訳（メタデータ） (2021-09-13T09:10:43Z)
ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文参考訳（メタデータ） (2020-04-19T20:40:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。