論文の概要: OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System
- arxiv url: http://arxiv.org/abs/2403.11536v1
- Date: Mon, 18 Mar 2024 07:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:16:57.317370
- Title: OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System
- Title(参考訳): 画像ベース欠陥検出システムにマルチモードをインポートするOCR
- Authors: Chih-Chung Hsu, Chia-Ming Lee, Chun-Hung Sun, Kuang-Ming Wu,
- Abstract要約: 我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
- 参考スコア(独自算出の注目度): 7.1083241462091165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic optical inspection (AOI) plays a pivotal role in the manufacturing process, predominantly leveraging high-resolution imaging instruments for scanning purposes. It detects anomalies by analyzing image textures or patterns, making it an essential tool in industrial manufacturing and quality control. Despite its importance, the deployment of models for AOI often faces challenges. These include limited sample sizes, which hinder effective feature learning, variations among source domains, and sensitivities to changes in lighting and camera positions during imaging. These factors collectively compromise the accuracy of model predictions. Traditional AOI often fails to capitalize on the rich mechanism-parameter information from machines or inside images, including statistical parameters, which typically benefit AOI classification. To address this, we introduce an external modality-guided data mining framework, primarily rooted in optical character recognition (OCR), to extract statistical features from images as a second modality to enhance performance, termed OANet (Ocr-Aoi-Net). A key aspect of our approach is the alignment of external modality features, extracted using a single modality-aware model, with image features encoded by a convolutional neural network. This synergy enables a more refined fusion of semantic representations from different modalities. We further introduce feature refinement and a gating function in our OANet to optimize the combination of these features, enhancing inference and decision-making capabilities. Experimental outcomes show that our methodology considerably boosts the recall rate of the defect detection model and maintains high robustness even in challenging scenarios.
- Abstract(参考訳): 自動光学検査(AOI)は製造工程において重要な役割を担い、主に走査目的に高解像度撮像装置を活用する。
画像テクスチャやパターンを分析して異常を検知し、工業的製造や品質管理に欠かせないツールとなる。
その重要性にもかかわらず、AOIのためのモデルのデプロイは、しばしば課題に直面します。
これには、効果的な特徴学習を妨げる限られたサンプルサイズ、ソースドメイン間の差異、画像中の照明やカメラの位置の変化に対する感度などが含まれる。
これらの要因は、モデル予測の精度を総括的に損なう。
従来のAOIは、多くの場合、AOI分類の恩恵を受ける統計パラメータを含む、機械または内部画像からの豊富なメカニズムパラメータ情報を活用することに失敗する。
そこで本研究では,OANet(Ocr-Aoi-Net)と呼ばれる,光学的文字認識(OCR)を基本とした外部モダリティ誘導データマイニングフレームワークを導入する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
このシナジーは、異なるモダリティからより洗練された意味表現の融合を可能にする。
さらに、OANetに機能改善とゲーティング機能を導入し、これらの機能の組み合わせを最適化し、推論と意思決定機能を強化します。
実験結果から,本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持することを示す。
関連論文リスト
- Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Present and Future Generalization of Synthetic Image Detectors [0.6144680854063939]
この研究は系統的な分析を行い、その洞察を用いて、堅牢な合成画像検出器の訓練のための実践的ガイドラインを開発する。
モデル一般化機能は、実際のデプロイメント条件を含む、さまざまな設定で評価される。
現在の手法は特定のシナリオにおいて優れているが、単一の検出器が普遍的な効果を達成できないことを示す。
論文 参考訳(メタデータ) (2024-09-21T12:46:17Z) - AssemAI: Interpretable Image-Based Anomaly Detection for Manufacturing Pipelines [0.0]
製造パイプラインにおける異常検出は、産業環境の複雑さと変動性によって強化され、依然として重要な課題である。
本稿では,スマート製造パイプラインに適した解釈可能な画像ベース異常検出システムAssemAIを紹介する。
論文 参考訳(メタデータ) (2024-08-05T01:50:09Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - ViTaL: An Advanced Framework for Automated Plant Disease Identification
in Leaf Images Using Vision Transformers and Linear Projection For Feature
Reduction [0.0]
本稿では,植物葉画像中の疾患の自動識別のための堅牢な枠組みを提案する。
このフレームワークには、いくつかの重要なステージが組み込まれており、疾患の認識精度が向上している。
本報告では, 病原葉を全方位でスキャンするハードウェア設計を提案する。
論文 参考訳(メタデータ) (2024-02-27T11:32:37Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Implicit Diffusion Models for Continuous Super-Resolution [65.45848137914592]
本稿では,高忠実度連続画像超解像のためのインプリシティ拡散モデル(IDM)を提案する。
IDMは暗黙のニューラル表現とデノナイジング拡散モデルを統合されたエンドツーエンドフレームワークに統合する。
スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を変調する。
論文 参考訳(メタデータ) (2023-03-29T07:02:20Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - Characteristic Regularisation for Super-Resolving Face Images [81.84939112201377]
既存の顔画像超解像法(SR)は、主に人工的にダウンサンプリングされた低解像度(LR)画像の改善に焦点を当てている。
従来の非教師なしドメイン適応(UDA)手法は、未ペアの真のLRとHRデータを用いてモデルをトレーニングすることでこの問題に対処する。
これにより、視覚的特徴を構成することと、画像の解像度を高めることの2つのタスクで、モデルをオーバーストレッチする。
従来のSRモデルとUDAモデルの利点を結合する手法を定式化する。
論文 参考訳(メタデータ) (2019-12-30T16:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。